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内 容 简 介 


本 书 系统 而 全 面 地 介绍 了 云 存储 安全 相关 的 关键 技术 及 其 最 新 研究 成 果 。 首 先 对 云 存储 做 一 概述 ; 
然后 从 云 存 储 安全 体系 结构 说 起 ,按照 云 存 储 安全 的 需求 层次 ,依次 介绍 云 存储 虚拟 化 安全 、 云 存储 系统 
身份 认证 与 访问 控制 ,加 密云 存储 系统 、 密 文 云 人 存储 信 息 检 索 、 云 存储 服务 的 数据 完整 性 审计 、 云 存储 数据 
备份 与 恢复 等 内 容 ; 最 后 介绍 大 数据 时 代 的 云 存 储 安全 。 

云 存储 服务 是 大 数据 时 代数 据 存储 的 基础 ,保障 云 存 储 安全 是 大 数据 分 析 与 计算 的 基石 。 本 书 内 容 
由 浅 入 深 , 按 照 云 存储 安全 的 需求 层次 以 及 保障 数据 安全 的 逻辑 层次 ,对 关键 技术 逐一 进行 介绍 。 全 书 共 
分 9 章 , 每 章 都 是 从 概述 开始 ,根据 需求 逐步 介绍 ,主要 是 最 前 沿 的 成 果 , 然 后 对 相关 领域 的 研究 工作 进行 
总 结 ,指出 存在 的 问题 及 将 来 的 研究 方 回 。 

本 书 作者 长 期 从 事 云 存储 安全 的 相关 研究 工作 ,对 该 领域 的 前 沿 科 研 成 果 比 较 熟 悉 。 本 书 内 容 极 具 
参考 价值 ,对 于 信息 安全 相关 专业 的 本 科 生 及 研究 生 具 有 很 好 的 指导 意义 ,可 以 帮助 他 们 全 面 系统 地 学 习 
云 存 储 安 全 领域 的 基础 知识 和 前 沿 成 果 ,建立 保障 大 数据 安全 的 存储 体系 。 

本 书 可 作为 高 等 院 校 信息 安全 、 网 络 空 间 安全 ,信息 存储 、 计 算 机 科学 与 技术 、 密 码 学 与 信息 对 抗 等 相 
关 专 业 的 本 科 生 和 研究 生 教材 ,也 可 作为 通信 工程 师 和 计算 机 网 络 工程 师 的 参考 读物 ,对 于 从 事 信息 安全 
领域 研究 工作 的 科研 人 员 也 有 很 好 的 指导 意义 和 参考 价值 。 
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PREFACE 


图 灵 奖 获得 者 吉姆 ， 格雷 (Jim Gray) 在 其 获奖 演说 中 指出 : 由 于 互联 网 的 发 展 , 未 来 
18 个 月 新 产生 的 数据 量 将 是 有 史 以 来 数据 量 之 和 。 从 预言 至 今 ,数据 量 的 增长 基本 符合 这 
个 定律 。 

人 类 社会 产生 的 数据 信息 一 方面 来 自 于 互联 网 ; 一 方面 来 自 于 日 常生 产 \、 生 活 及 各 种 
科学 试验 ,例如 科学 计算 和 仿真 、 飞 行动 力学 、 核 爆炸 仿真 .太空 探测 及 医学 影像 等 每 天 所 产 
生 的 数据 量 更 是 大 到 惊人 的 程度 。 

根据 易 观 智库 发 布 的 《中国 大 数据 市 场 年 度 综合 报告 2016》 中 数据 显示 ,2015 年 中 国 大 
数据 市 场 规模 达到 105. 5 亿 元 ,同比 增长 39. 4% ,预计 未 来 3 一 4 年 ,市 场 规模 增长 率 将 保 
持 在 30% 以 上 。 

云 存 储 作 为 大 数据 时 代 的 存储 基础 设施 ,其 重要 性 不 言 而 喻 ,特别 是 物 联网 技术 的 高 速 
发 展 ,其 后 的 文 撑 平台 也 有 赖 于 云 存储 技术 。 在 已 经 实现 的 云 存储 服务 中 ,数据 安全 和 隐私 
保护 问题 一 直 令 人 担忧 ,并 已 经 成 为 阻碍 云 存 储 发 展 和 推广 的 主要 因素 之 一 。 从 现实 情况 
看 , 云 存储 数据 安全 问题 层出不穷 。 

2014 年 9 月 ,黑客 利用 苹果 iCloud 云端 系统 的 汤 洞 将 其 数据 外 泄 ; 2015 年 4 月 ,上 海 、 
重庆 等 超 30 个 省 市 约 5000 万 用 户 社保 信息 被 泄露 ; 2016 年 4 月 ,土耳其 方面 爆发 重大 数 
据 泄 露 事件 ,导致 近 5000 万 土耳其 公民 的 个 人 信息 遭 到 威胁 ; 2017 年 2 月 ,知名 云 安 全 服 
务 商 Cloudflare 被 曝 泄 露 用 户 HTTPS 网 络 会 话 中 的 加 密 数 据 长 达 数 月 ; 2018 年 1 月 , 印 
FE 10 亿 公 民 身 份 数据 库 Aadhaar 被 曝 遭 到 网 络 攻 击 ,除了 名 字 电话 号 码 . 邮 箱 地 址 等 信息 
之 外 ,指纹 、 虹 膜 记录 等 极度 敏感 的 信息 均 遭 到 泄露 ……… 各 类 安全 事故 不 胜 枚 举 。 

为 了 推进 云 存储 技术 的 快速 发 展 与 普及 ,本 书 全 面 、 系统 地 介绍 了 云 存 储 安 全 的 发 展 历 
FE Fil gc EAE DR o 

在 信息 安全 的 三 要 素 (CIA ZH) — BL TE (Confidentiality) , 完整 性 (Integrality) , 
可 用 性 (Availability) 的 基础 上 ,作者 认为 应 加 入 访问 控制 (Access Control) ,将 CIA 延伸 到 
CIAA ,此 四 方面 被 认为 是 保障 云 存 储 安 全 的 核心 技术 。 因 此 ,本 书 将 围绕 此 四 方面 及 其 衍 
生 的 其 他 问题 展开 讨论 ,全书 共 分 为 9 2E. UR 1 草 对 云 存 储 进行 概述 ,介绍 云 存 储 的 兴起 与 
存储 安全 面临 的 挑战 ; 第 2 音 建 立 云 存储 安全 体系 结构 ,围绕 云 存 储 系统 安全 体系 结构 说 
明 本 书 的 研究 内 容 ; 第 3 章 介 绍 云 存储 虚拟 化 安全 ; 第 4 章 介 绍 云 存储 系统 身份 认证 与 访 
问 控制 ; 第 5 章 介 绍 加 密云 存储 系统 ; 第 6 章 介 绍 密 文 云 存 储 信 息 检 索 ; 第 7 章 介 绍 云 
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储 服务 的 数据 完整 性 审计 ; 第 8 曹 介绍 云 存储 数据 备份 与 恢复 ; 第 9 SEVERI RIVA CS ISTE 
代 的 云 存 储 安 全 。 

本 书 主 要 针对 已 有 一 定 信息 安全 相关 基础 知识 的 读者 ,比如 知道 密码 技术 ,能 区 分 对 称 
密码 与 公 钥 密 码 , 知 道 当 前 使 用 的 对 称 密码 标准 是 什么 以 及 篆 用 的 公 钥 密码 技术 ; 知道 
Hash 算法 消息 认证 码 (Message Authentication Code，MAC) 等 相关 基础 知识 。 关 于 密码 
技术 的 书籍 和 资料 非常 丰富, 本 书 没 有 再 介绍 相关 理论 知识 。 

本 书 取材 新 络 ,结构 合理 ,不 仅 包 括 云 存储 安全 技术 的 基础 理论 ,而 且 涵 盖 了 云 存 储 安 
全 技术 的 最 新 研究 成 果 ,力求 使 谈 者 通过 本 书 的 学 习 了 解 本 学 科 最 新 的 发 展 方向 。 本 书 适 
合作 为 高 等 院 校 信息 安全 、 网 络 空间 安全 ,信息 存储 、 计 算 机 科学 与 技术 、 密 码 学 与 信息 对 抗 
等 相关 专业 的 本 科 生 和 研究生 教 材 ,也 可 作为 通信 工程 师 和 计算 机 网 络 工程 师 的 参考 读物 。 

因为 本 书 内 容 涉 猫 广泛 ,所 以 难免 存在 一 些 玖 汤 或 考虑 不 周全 、 引 用 不 全 之 处 ,但 作者 
绝对 是 本 着 讲授 本 领域 最 新 研究 成 果 的 想法 , 尽 可 能 地 介绍 本 书 各 部 分 内 容 的 精华 或 里 越 
观点 ,通过 通俗 易 懂 、 深 入 浅 出 的 讲解 , 既 可 以 实现 传播 知识 的 科普 目标 ,也 可 将 其 作为 “ 引 
子 ” 为 入 门 者 抛砖引玉 ,以 实现 登 绽 入 室 之 目的 。 因 本 人 知识 见闻 有 有限, 难免 有 “ 趋 熟 避 生 ” 
之 嫌 , 青 或 者 “ 词 不 达意 ”“ 言 不 尽 意 ”, 让 读者 产生 误解 。 希 望 读 者 能 够 谅解 ,并 在 方便 之 时 
让 我 知晓 ,使 我 有 机 会 给 予 解释 ,同时 交流 学 习 , 以 待 以 后 有 机 会 更 正 。 

非常 希望 此 书 能 够 做 到 开卷 有 益 ! 


作者 
2019 年 5 月 
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云 存 储 概述 


《三 国 演义 ) 第 一 回 :“ 话 说 天 下 大 势 , 分 久 必 合 , 合 久 必 分 ……: ”。 数 据 存 储 系 统 也 不 例 
外 ,从 传统 分 散 式 存储 系统 ,发 展 到 集中 式 存储 ,然后 发 展 到 现在 的 集中 式 云 存 储 , 又 往 分 布 
式 云 存储 系统 方向 发 展 ……… 

云 存 储 (Cloud Storage) 是 在 云 计 算 (Cloud Computing) 概 念 上 延伸 和 发 展 起 来 的 ,是 
指 通过 集群 应 用 .网 格 技术 和 分 布 式 文件 系统 等 功能 ,将 网 络 中 大 量 不 同类 型 的 存储 设备 通 
过 虚拟 化 软件 集合 起 来 协同 工作 ,实现 共同 对 外 提供 数据 存储 和 业务 访问 功能 。 当 云 计 算 
系统 处 理 的 核心 是 大 量 数据 的 存储 和 管理 时 , 云 计算 系统 就 需要 配置 大 量 的 存储 设备 ,那么 
云 计 算 系 统 就 转变 成 云 存 储 系统 ,所 以 云 存 储 是 一 个 以 数据 存储 和 管理 为 核心 的 云 计 算 

本 章 将 从 云 存 储 的 兴起 讲 起 ,详细 介绍 云 存 储 的 发 展现 状 与 趋势 ,然后 详细 说 明 为 什么 
会 存在 安全 问题 ,具体 有 哪些 安全 威胁 ,又 有 哪些 需要 解决 的 问题 ,解决 了 这 些 问 题 仍然 面 
临 怎样 的 挑战 。 

本 章 是 为 后 续 章 节 作 一 个 铺垫 。 通 过 本 章 的 介绍 ,用 户 可 以 了 解 到 云 存储 安全 技术 要 
解决 的 问题 ; 具体 研究 范围 ,后 续 章节 将 一 一 展开 讨论 。 


1.1 云 存 储 的 兴起 


云 存 储 的 兴起 可 以 从 一 个 趣闻 说 起 。 全 球 最 大 网 上 书店 亚马逊 (Amazon， www. 
amazon. com) 是 一 个 电子 商务 平台 ,早期 的 网 络 服务 平台 Obidos 采用 C++ 语言 编写 ,编译 
后 的 代码 大 小 为 700MB ,编译 一 次 需要 一 天 时 间 ,使 加 入 新 功能 变 得 越 来 越 困 难 。 后 来 ,他 
们 设计 并 实现 了 一 个 新 的 服务 平台 Gurupa, 采 用 基于 Perl 语言 的 Mason 模板 库 ,把 所 有 功 
能 以 微服 务 的 形式 集成 起 来 ,但 是 性 能 不 好 。 为 了 应 对 圣诞 节 的 流量 高 峰 期 ,亚马逊 购买 了 
KER tit Al Cisco 交换 机 ,用 以 实现 负载 均衡 ,以 满足 流量 高 峰 时 对 性 能 扩展 的 需求 。 但 
是 ,节日 过 后 的 淡季 ,又 不 得 不 面临 大 量 机 融 空 闲 的 状况 。 为 了 不 让 凌 源 闲置 ,亚马逊 就 把 
这 些 机 硕 配 置 成 服务 来 租赁 ,这 就 是 最 初 的 云 计算 的 秩 形 。 

利用 已 有 的 IT 基础 设施 一 一 便 件 设备 .服务 融 与 交换 机 ,组 合 配置 成 集 计 算 、 存 储 与 
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网 络 于 一 体 的 资源 池 ,一 方面 可 为 电子 商务 平台 提供 各 类 IT 服务 ,满足 各 种 负载 的 需求 ; 
男 一 方面 还 可 将 闲置 的 资源 分 解 成 一 个 个 小 单元 用 于 租 售 ,实现 成 本 的 分 扒 。 正 是 看 到 了 
这 一 点 ,亚马逊 利用 虚拟 化 技术 一 一 云 计 算 与 云 存 储 的 核心 技术 ,将 闲置 的 YT. 资源 进行 分 
解 ,在 其 上 构建 了 亚马逊 网 络 服 务 系统 (Amazon Web Services,AWS)。2002 年 7 月 , 亚 马 
逊 利 用 其 分 布 在 全 球 各 地 的 数据 中 心 ,推出 面向 第 三 方 的 云 计算 服务 AWS, 主 要 包括 数据 
库 服务 .处 理 需 资源 租赁 网络 人 存储、 应 用 软件 服务 等 。AWS 的 迅速 成 长 让 其 成 为 亚 马 进 
的 一 项 非常 成 功 的 新 业务 。 

亚马逊 的 创始 人 Jeff Bezos 在 一 次 采访 中 说 过 : 亚马逊 作为 电子 商务 公司 ,起 初 为 了 处 
理 大 量 的 货品 库存 和 分 配 ,积累 并 完善 了 他 们 的 大 数据 计算 技术 。 目 前 ,亚马逊 提供 的 服务 
包括 : 亚马逊 弹性 计算 云 (Amazon Elastic Compute Cloud, EC2) , ME. = sh i $ ££ M lk 6 
(Amazon Simple Storage Service. S3) 亚马逊 Web Ik (Amazon Web Services) , MF. = fh [nj 
单数 据 库 (Amazon SimpleDB) , 5 ith fj $% BA 91] IR (Amazon Simple Queue Service) 以 及 
亚马逊 内 容 分 发 网 络 (Amazon CloudFronO 55, 

回顾 历史 ,任何 事物 的 发 展 都 存在 一 定 的 偶然 性 和 必然 性 。 在 Brad Stone 于 2013 年 
撰写 的 关于 亚马逊 历史 最 权威 的 The Everything Store: Jeff Bezos and the Age of 
AuazozD 一 书 中 ,可 以 归纳 出 影响 亚马逊 发 展 的 历史 必然 性 的 几 个 因素 呈 。 

亚马逊 的 核心 业务 一 一 电子 商务 有 很 强 的 季节 性 。2002 一 2003 年 ,公司 发 展 进入 了 瓶 
贷 期 ,如 何 有 效 配置 羔 顾 扩展 性 与 持续 性 的 基础 服务 平台 成 为 一 个 吸 待 解决 的 问题 。 而 这 
个 问题 ,在 当时 只 有 亚马逊 才 存 在 ,其 他 公司 如 谷歌 (Google) 当时 的 营利 模式 主要 是 投放 广 
告 业务 ,所 以 亚马逊 具备 开发 云 计 算 服务 所 需要 的 发 展 动力 和 生存 压力 。 

2002 年 ,Tim O'ReillyCO'Reilly Media 出 版 公司 的 创始 人 ) 拜 访 Bezos, 4i 9B 5j MV. = ith 
合作 。 人 合作 没 谈 成 ,但 O'Reilly 的 提议 让 Bezos 意识 到 亚马逊 的 数据 可 以 开放 给 第 三 方程 
序 员 使 用 ,于 是 他 组 织 了 第 一 届 亚 马 逊 开发 者 大 会 ,提出 所 有 互 操作 要 以 APICApplication 
Programming Interface, 应 用 编程 接口 ) 的 方式 提供 数据 和 各 种 功能 ,而 且 API 可 以 对 外 部 
人 员 开 放 ,AWS 就 是 API 化 的 服务 平台 ,这 种 方式 为 后 面 的 系统 扩展 性 打下 了 恨 好 的 
基础 。 

Bezos 当时 对 图 书 (Creation: Life and How to Make It)? (2001 年 出 版 ) 非 常 着 迷 ， 
并 且 让 公司 高 管 人 手 一 册 。 此 书 作 者 Steve Grand 无 意 中 给 亚马逊 高 管 指 出 了 一 条 解决 IT 
资源 配置 的 思路 : 把 IT 基础 设施 分 成 一 个 个 小 单元 ,让 程序 员 可 以 目 由 配置 与 使 用 。 因 
此 ,Bezos 马上 组 建 研 发 团队 来 研究 开发 这 样 的 小 单元 ,这 便 是 虚拟 化 思想 的 局 索 。 

2004 年 ,亚马逊 负责 IT 基础 设施 配置 的 Chris Pinkham 和 硕 望 回 到 老家 南非 。 为 了 换 
留 他 ,亚马逊 就 在 好 望 角 设 置 了 一 个 办 公 室 ,让 Pinkham 可 以 远程 办 公 。 为 了 能 跟 西 雅 图 
的 总 部 一 直人 保持 连 线 , Pinkham 市 领 一 个 程序 员 Chris Brown 开发 了 最 早 版 本 的 EC2 
和 S3, 

2006 年 ,亚马逊 的 董事 会 和 硅谷 风 投 并 不 看 好 AWS, 因 为 这 看 起 来 跟 电子 商务 的 主音 
业务 完全 没有 关系 ,而 且 那 时 电子 商务 的 主要 产品 一 一 书籍 一 直 在 亏 钱 。 按 照 董 事 会 正常 
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的 商业 逻辑 ,会 否决 上 线 AWS 这 样 狼 狂 而 大 胆 的 新 产品 ,但 是 在 亚马逊 的 董事 会 上 Bezos 
拥有 极 强 的 影响 力 ; 而 且 当 时 他 已 经 成 功 地 运营 了 极 具 前 上 脆性 的 众 包 产品 土耳其 机 右 人 
(Amazon Mechanical Turks), 问 董事 会 证 明 亚 马 了 还 可 以 走出 主 营 业务 ,开发 出 成 功 的 新 产 
mo XH NRE Bezos 可 以 说 服 董事 会 ,继续 发 展 AWS, 

最 后 也 是 最 重要 的 一 个 因素 是 ,Bezos 一 直 坚 信 亚 马 逊 的 价值 在 于 提供 近似 于 水 电 的 
基础 设施 服务 ,这 样 才 可 以 更 好 地 服务 于 用 户 。 他 认为 成 本 应 该 越 低 越 好 ,这 与 Steve Jobs 
的 商业 逻辑 刚好 相反 : Jobs 是 高 价 十 小 量 十 超额 利润 ,而 Bezos 是 超 低 价 十 巨 量 十 微 溥 利 
润 。 在 这 样 的 思想 指导 下 ,AWS 一 开始 的 价格 非常 低 , 因 为 Bezos 没准 备 在 短期 内 特 利 ,而 
是 他 刻意 压低 价格 ,不 想 引 起 潜在 苑 争 对 手 的 注意 。 而 Google 的 主 营 业务 一 一 广告 的 利润 
非常 高 ,在 当时 既 没 有 压力 也 没有 动力 ,更 加 没有 说 得 过 去 的 理由 来 介入 一 个 看 起 来 根本 不 
赚钱 的 生意 。Google 的 Eric Schmidt 说 : 他 在 两 年 里 ,发 现 很 多 新 兴 公 司 都 在 用 同一 家 公 
司 一 一 亚马逊 的 服务 ,这 才 让 他 意识 到 亚马逊 已 经 在 下 一 盘 很 大 的 棋 。 

所 有 的 科技 进步 都 是 在 解决 现实 问题 的 同时 提供 更 好 的 用 户 体验 ,亚马逊 做 到 了 ， 
Bezos 非常 注重 客户 体验 。 同 时 ,亚马逊 本 和 号 就 有 全 球 化 的 数据 中 心 ,这 与 是 否 存在 AWS 
没有 关系 ,但 AWS 服务 将 更 多 的 客户 带 入 亚马逊 ,因此 AWS 与 传统 的 电子 商务 系统 协同 
发 展 ,相互 促进 ,这 也 是 亚马逊 云 计算 技术 得 以 突飞猛进 的 一 个 重要 原因 。 

此 后 ,微软 的 Azure 和 谷歌 的 应 用 引擎 (App Engine) 都 在 尝试 亚马逊 的 这 种 商业 模 
式 。 中 国 的 百度 云 .阿里 云 等 也 赶 上 了 这 次 云 计算 浪 潮 , 目 前 也 初 具 规 模 。 

目前 ,信息 存储 系统 还 朝 着 无 限 的 市 宽 、 无 限 的 容量 和 无 限 的 处 理 能 力 (Infinite 
Bandwidth, Infinite Capacity, Infinite Processing Capability) , 即 31 897r [n] KER JE., H HER 
fe HL“ Anytime. Anywhere. Anything"3A 目标 , 即 可 在 任意 时 间 、 任 意 地 点 实现 任意 数据 
访问 。 存 储 产 品 不 再 是 附属 于 服务 需 的 辅助 设备 ,而 成 为 互联 网 中 最 主要 的 花费 所 在 。 信 
息 技术 正 从 以 计算 为 核心 的 计算 时 代 进 入 到 以 存储 为 核心 的 存储 时 代 , 网 络 化 存储 已 经 成 
为 存储 市 场 的 热点 。 而 目前 的 云 存 储 服务 是 网 络 存 储 发 展 的 必然 趋势 。 


1.2 云 存储 发 展现 状 

云 存 储 是 一 个 以 数据 存储 和 管理 为 核心 的 云 计 算 系 统 , 云 存储 与 云 计 算 息 息 相 关 。 

1.2.1 定义 .服务 模型 与 分 类 

2011 Æ 9 月 ,美国 国家 标准 与 技术 研究 院 (National Institute of Standards and 
Technology, NIST)'“ 对 云 计 算 的 定义 特征、 服务 模式 和 类 型 作 了 详细 说 明 。 

云 计 算是 一 种 商业 计算 模型 , 它 可 以 实现 随时 随地 及 随 需 应 变 的 可 配置 的 IT 资源 ( 例 
如 ,计算 、 存 储 、 网 络 、 服 务 器 、 应 用 ) ,资源 能 够 快速 供应 并 释放 ,使 管理 资源 的 工作 量 及 与 服 


务 提 供 商 的 交互 减 小 到 最 低 限 度 。 它 将 计算 任务 分 布 在 大 量 计 算 机 构成 的 资源 池上 ,使 各 
种 应 用 系统 能 够 根据 需要 获取 计算 力 、 存 储 空间 和 各 种 软件 服务 。 它 是 并 行 计算 (Parallel 
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Computing) ,分 布 式 计算 (Distributed Computing) 和 网 格 计 算 (CGrid Computing) 的 发 展 , 或 
者 说 是 这 些 计 算 机 科学 概念 的 商业 实现 。 

有 计算 的 地 方便 有 存储 ,特别 是 在 大 数据 时 代 , 数 据 为 王 , 通 和 常 需要 将 计算 能 力 迁 移 到 
存储 端 ,比如 最 近 提 出 的 Near-Data Processing (it Zt dis sig Zh FB) , In-Data Processing( 在 数据 
im Lb FE) , Processing-in-Memory( (Æ W # FAR) & Processing-in-Storage( 在 存储 中 人 处理 )， 
存储 与 计算 越 来 越 不 可 分 离 。 因 为 数据 量 太 大 ,将 数据 迁移 到 计算 端的 时 间 可 能 比 直接 将 
存储 数据 的 设备 使 用 卡车 运送 到 计算 端 还 要 慢 。 

云 计算 的 服务 模型 可 以 分 为 3 种 ,如 图 1-1 所 示 。 


m ( 如 : Google Docs. Microsoft, Salesforce online CRM. 
33 (SaaS 
软件 中 服务 《SaaS ) Oracle CRM On Demand. Office Live Workspace 


平公 即 服 ‘PaaS’ 如 : Google App Engine. Microsoft Windows Azure, 
FARRS (PaaS) IBM IT Factory» Force. com 


基础 设施 即 服 | 如 : Amazon EC2、S3 和 SQS、IBM Blue Cloud. Sun 
础 设施 即 服务 (laaS) | Grid、Nirvanix SDN « Cleversafe dsNet 


All-1 云 计 算 的 3 种 服务 模型 


软件 即 服务 (Software as a Service, SaaS): 是 一 种 通过 互联 网 提供 软件 的 模式 ,用 
户 无 须 购买 软件 ,可 直接 使 用 构建 在 云端 的 软件 来 管理 企业 经 营 活 动 。 在 这 一 方 
面 ,比较 典型 的 有 Google Docs、Microsoft、Salesforce online CRM, Oracle CRM On 
Demand, Office Live Workspace 等 。 

平台 即 服务 (Platform as a Service. Paad): 用 户 使 用 云 平 台所 文 持 的 语言 和 工具 ， 
开发 应 用 并 部 署 在 云 平 台 上 。 用 户 不 直接 管理 或 控制 包括 网 络 、. 服 务 带 、 存 储 , 甚 至 
单个 应 用 功能 在 内 的 底层 云 基础 设施 ,但 可 以 控制 部 署 的 应 用 程序 ,也 有 可 能 配置 
应 用 的 托管 环境 。 比 如 将 软件 开发 平台 作为 一 种 服务 ,以 SaaS 的 模式 提交 给 用 户 。 
PaaS 的 出 现 可 以 加 快 SaaS 的 发 展 , 尤 其 是 加 快 SaaS 应 用 的 开发 速度 。 在 这 一 方 
面 ,比较 典型 的 有 Google App Engine, Microsoft Windows Azure, IBM IT Factory, 
Force. com 等 。 

基础 设施 即 服务 (Infrastructure as a Service. IlaaS) : 用 户 通 过 互联 网 可 以 获得 完善 
的 计算 机 基础 设施 服务 。5G 是 高 效 、 高 速 的 移动 互联 的 基础 设施 , 随 着 未 来 5G 
技术 的 发 展 ,对 基础 设施 服务 的 需求 会 日 益 增 长 。 比 如 提供 处 理 器 、 存 储 、 网 络 等 
(虚拟 ) 硬 件 资 源 给 用 户 ,用 户 可 任意 安装 软件 和 开发 环境 ,包括 安 闻 操 作 系 统 和 
应 用 程序 。 用 户 不 管理 或 控制 底层 的 基础 设施 ,但 可 以 控制 操作 系统 、 存 储 、 部 署 
的 应 用 ,也 有 可 能 选择 网 络 构件 (例如 ,主机 防火 墙 ) 。 在 这 一 方面 ,比较 典型 的 有 
W h EC2,S3 和 SQS,IBM Blue Cloud, Sun Grid, Nirvanix SDN, Cleversafe 
dsNet ^& , 
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这 3 种 模型 从 应 用 到 平台 再 到 架构 , 越 来 越 底 层 , 开 发 者 获得 的 可 操作 性 和 灵活 性 也 越 
来 越 大 。 通 常 说 的 云 存储 一 般 可 分 类 到 IaaS, 但 对 于 云 存 储 服务 提供 者 ,他 们 提供 的 Paas 
和 SaaS 同样 需要 云 存 储 技术 来 部 署 相 应 的 平台 。 

按照 部 署 方式 , 云 计算 可 以 分 为 私有 云 (Private Cloud) , E [X zi (Community Cloud), 
公共 云 (Public Cloud) 与 混合 云 (Hybrid Cloud)4 种 模式 。 

私有 云 是 指 构建 在 一 个 组 织 内 部 且 为 该 组 织 或 者 信任 该 组 织 的 用 户 提 供 服务 的 云 , 可 
以 由 该 机 构 或 第 三 方 管理 ; 社区 云 是 指 一 些 有 着 共同 利益 (如 任务 .安全 需求 、 策 略 .规约 考 
虑 等 ) 并 打算 共享 基础 设施 的 组 织 共 同 创 立 的 云 ,可 以 由 该 机 构 或 第 三 方 管理 ; 公共 云 是 指 
右 干 企业 和 用 户 共 享 使 用 的 一 种 云 环 境 , 由 销售 云 服 务 的 组 织 机 构 管 理 ; 混合 云 由 两 个 或 
两 个 以 上 的 云 ( 私 有 云 .社区 云 或 公共 云 ) 组 成 ,它们 各 日 独立 ,但 通过 标准 化 技术 或 专 有 技 
术 绑 定 在 一 起 , 云 之 间 实 现 了 数据 和 应 用 程序 的 可 移植 性 。 

云 计算 与 云 存 储 密 不 可 分 ,因此 云 计 算 的 定义 、 服 务 模型 和 分 类 同样 适用 于 云 存储 。 下 
面 将 介绍 为 什么 需要 云 存 储 。 

1.2.2 Atha zii 

据 国 际 数据 公司 (International Data Corporation. IDC) 2013 4E Ay FR 45 GB 78,2012 年 
全 球 数据 已 经 达到 2. 8ZB(1ZB 等 于 1 万 亿 GB,2. 8ZB 也 就 相当 于 28 亿 个 1TB 的 移动 硬 


盘 ) ,而 这 个 数值 还 在 以 每 两 年 翻 一 番 的 速度 增长 ,预计 到 2020 年 全 球 将 总 共 拥 有 40ZB 的 
数据 量 ,如 图 1-2 所 示 。 


" 全 球 数据 量 (ZB) 


2005 2010 2012 2015 2020e 
图 1-2 IDC 预测 全 球 数据 量 增长 趋势 


而 2013 年 中 国 的 数据 量 占 比 为 13% ,数据 总 量 超过 0. 8ZB( 相 当 于 8 亿 TB),2 f% F 
2012 年 ,相当 于 2009 年 全 球 的 数据 总 量 。 预 计 到 2020 年 ,中 国产 生 的 数据 总 量 将 是 2013 
年 的 10 倍 , 超 过 8. 5ZB。2013 全 球 数据 分 布 如 图 1-3 所 示 。 

ERR IT 市 场 咨询 公司 Springboard Research F 2010 年 6 月 10 日 发 布 T《 中 国 云 存储 
服务 报告 X)(China Cloud Storage Services Report), 报告 显 示 , 未 来 5 年 中 国 云 存储 服 
务 市 场 的 年 复合 增长 率 将 达到 103 26 ,平均 每 年 市 场 价 值 翻 一 番 。 从 图 1-4 中 可 以 看 出 ,中 
国 云 存 储 服务 的 市 场 价值 将 由 2009 年 的 605 万 美元 快速 增长 至 2014 年 的 2.0854 亿美 元 。 
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同时 报告 指出 ,尽管 每 月 每 GB 的 存储 服务 价格 持续 下 降 , 但 是 云 存 储 市 场 总 容量 的 增 
长 幅度 更 快 ,从 而 推动 云 存 储 市 场 整体 规模 在 未 来 5 年 内 的 快速 上 涨 。 图 1-5 显示 了 2009 一 
2014 年 中 国 云 存储 服务 的 存储 容量 需求 ,预计 将 从 2009 年 的 0. 6PB 上 升 到 2014 年 的 
66. 29PB ,增长 了 110 倍 以 上 。 
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因为 最 新 数据 未 公开 ,所 以 图 示 数 据 都 是 旧 的 数据 ,在 本 小 节 中 只 是 以 此 说 明 数 据 量 在 
指数 级 增长 ,中国 在 全 球 数据 量 的 占 比 是 比较 高 的 , 云 存储 市 场 潜力 巨大 。 

根据 IBM 的 调查 统计 报告 ” ,企业 的 IT 费用 呈 逐 年 上 升 趋势 ,如 图 1-6 所 示 。 该 调查 
报告 将 IT 费用 分 解 为 3 个 方面 : 新 购置 服务 器 的 费用 、 服 务 器 管理 和 维护 费用 、 能 源 以 及 
制冷 设备 的 费用 。 在 这 3 个 方面 中 ,服务 器 管理 和 维护 费用 开销 最 大 ,而 且 上 升 速度 最 快 。 
为 了 保证 业务 高 峰 时 IT 系统 的 稳定 性 ,企业 实际 部 署 的 服务 需 的 峰值 工作 量 比 平均 值 要 
高 2 一 10 倍 , 因 此 数据 中 心服 务 需 的 利用 率 一 般 只 有 5 名 一 20% 。 另 外 ,在 进行 IT 建设 时 ， 
IT 工作 人 员 花 费 70%% 的 时 间 和 精力 做 基础 架构 、 软 件 以 及 日 常 的 维护 工作 ,只 有 2076 2X 0 
更 少 的 时 间 花 在 真正 与 业务 相关 的 系统 建设 上 。 


300| us 能 源 以 及 制冷 设备 的 费用 
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41-6 ”企业 每 年 的 IT 费用 统计 与 预测 


虽然 购置 服务 器 和 能 源 及 制冷 设备 的 成 本 相当 ,但 是 企业 的 管理 和 人 员 成 本 太 高 ,利用 
率 又 太 低 。 

选择 云 存 储 服务 ,一 方面 能 够 为 企业 的 数据 中 心 节 省 成 本 ,还 能 够 实现 资源 的 集中 共 
享 ,把 空闲 时 段 的 资源 补充 到 企业 更 需要 的 应 用 上 去 ,也 免 去 了 日 常 的 管理 与 维护 费用 ,与 
其 适 配 的 能 源 及 制冷 设备 亦 可 免 去 。 源 自 云 存储 服务 的 规模 经 济 性 ,可 以 实现 更 低 的 硬件 
成 本 .更 低廉 的 电力 价格 .更 低 的 管理 费用 ,加 上 更 高 的 利用 率 ,使 云 存 储 服 务 的 经 济 性 提高 
ik 30 倍 ” 。 

图 灵 奖 获得 者 (Jim Gray) 在 其 获奖 演说 中 指出 : 由 于 互联 网 的 发 展 ,未 来 每 18 个 月 
新 产生 的 数据 量 将 是 有 史 以 来 数据 量 之 和 。 这 说 明 人 们 对 存储 容量 的 需求 是 惊人 的 ,存储 
市 场 具有 无 限 的 湾 力 。 云 存储 是 信息 存储 的 一 种 趋势 , 它 可 为 用 户 市 来 如 下 好 处 。 

(1) 无 须 购 置 初始 耗资 较 大 的 服务 器 , 也 免 去 了 专业 的 服务 硕 及 数据 管理 人 员 ,避免 过 
大 的 初始 投资 ,能 源 及 制冷 设备 减少 。 

(2) 实现 任意 地 点 ,任意 时 间 \ 任 意 数 据 访问 。 

(3) 提供 可 用 性 、 可 维护 性 与 扩展 性 保障 。 

(4) 保障 法 规 遵从 的 需求 。 

(5) 实现 数据 长 期 保存 。 
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云 存 储 的 主要 特色 是 : 容量 规模 大 ; 使 用 多 少 ,支付 多 少 ; 上 不 封顶 ,下 不 设 限 。 有 了 
云 存 储 ,永远 也 不 会 出 现存 储 空间 不 足 的 情况 。 对 存储 需求 不 可 预测 .需要 廉价 存储 阵列 或 
低 成 本 长 期 存档 的 用 户 来 说 , 按 需 购买 存储 容量 的 云 存 储 与 一 次 性 购买 整套 存储 系统 相 比 
显然 会 市 来 更 多 的 方便 和 效益 。 男 外 , 云 存 储 在 为 用 户 节 省 初始 投资 的 同时 也 市 约 了 社会 
资源 与 能 源 。 


1.2.3 现状 与 发 展 趋势 


高 德 纳 咨询 公司 (Gartner) 是 全 球 最 权威 的 IT 研究 与 顾问 咨询 公司 之 一 ,其 研究 范围 
TH wb IT 产业 ,可 从 IT 的 人 研究 ,发展 、 评 估 、 应 用 ,市场 等 多 个 角度 ,为 客户 提供 客观 、 公 
正 的 论证 报告 及 市 场 调 研 报 告 ,协助 客户 进行 市 场 分 析 、 技 术 选 择 、 项 目 论证 等 。 尤 其 是 在 
投资 风险 和 管理 .营销 策略 发展 方 向 等 重大 问题 上 ,利用 其 提供 的 重要 咨询 建议 ,决策 者 可 
以 更 科学 合理 地 做 出 正确 抉择 。 

技术 成 熟 度 曲线 是 Gartner 为 企业 提供 的 一 种 用 于 评估 新 技术 成 熟 度 的 经 典 工 具 , 它 
将 各 种 新 科技 的 成 熟 演变 速度 及 达到 成 熟 所 需 的 时 间 分 成 如 下 5 个 阶段 。 

(1) 技术 萌芽 期 (Innovation Trigger); 当 一 项 新 技术 诞生 时 ,伴随 着 业界 和 媒体 的 关 
TE ,无 论 是 大 众 还 是 业内 人 士 对 技术 的 期 望 值 都 越 来 越 高 。 在 这 个 阶段 用 户 的 需求 和 产品 
往往 并 不 成 熟 ,但 会 有 大 量 的 资金 进入 。 

(2) 期 望 膨 胀 期 (Peak of Inflated Expectations): 公众 的 期 望 值 达 到 顶峰 ,有 少量 用 户 
开始 采用 该 项 技术 。 

(3) 泡沫 破裂 期 (Trough of Disillusionment) : 过 高 的 期 望 值 和 产品 成 熟 度 之 间 存 在 鸿 
沟 ,公众 的 期 望 值 下 降 ,出 现 负 面 评 价 , 但 成 功 并 能 存活 的 经 营 模式 逐渐 成 长 。 

(4) Fase Me JH HA (Slope of Enlightenment); 相关 技术 供应 商 不 断 完善 自己 的 产品 ,加 
上 用 户 需 求 的 明确 ,产品 在 设计 和 应 用 场景 上 趋 于 成 熟 , 最 佳 实践 开始 出 现 。 

(5) 生产 高 峰 期 (Plateau of Productivity): 新 技术 产生 的 利益 和 潜力 被 市 场所 认可 , 开 
始 出 现 产 品 间 的 价格 竞争 。 

2017 年 7 月 ,高 德 纳 咨询 公司 (Gartner) 发 布 了 2017 年 度 存储 技术 成 熟 度 曲 线 " ,如 
图 1-7 所 示 。 该 技术 成 熟 度 曲线 是 根据 存储 相关 的 硬件 和 软件 技术 的 商用 影响 .采用 率 和 
成 熟 度 进行 评估 ,以 便 帮 助 用 户 决策 在 哪些 方面 以 及 何 时 对 这 些 存 储 技术 进行 投资 。 

该 报告 将 存储 市 场 细 分 为 共享 加 速 存 储 、 和 管理 SDSCSoftware-Defined Storage. 软件 定 
义 存储 ) 、 云 数据 备份 移动 设备 数据 备份 工具 、 文 件 分 析 、 开 源 存储 、 复 制 数据 管理 ,SDS JE 
础 设施 和 集成 系统 。 集 成 系统 包括 超 融合 .数据 清理 、 集 成 备份 设备 .存储 集群 文件 系统 .路 

台 结 构 化 数据 归档 信息 分 散 算 法 、 对 象 存 储 、 固 态 DIMM(Dual In-line Memory Module. 

双 线 内 存 模块 )、 新 兴 数 据 存 储 保护 方案 、 混 合 DIMM .企业 终端 备份 、 云 存储 网 关 、 灾 备 即 
服务 、 公 共 云 存储 、 虚 拟 机 备份 与 恢复 、 针 对 消息 数据 的 SaaS 上 归档、 在 线 数据 压缩 .存储 多 租 
户 技术 .企业 信息 归档 、 自 动 化 存储 分 层 、 基 于 网 络 的 复制 设备 、 连 续 数 据 保护 (Continuous 
Data Protection. CDP) 、 重 复数 据 删 除 、 外 部 存储 虚拟 化 和 固态 阵列 。 对 比 2016 年 度 的 存 
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1-7 2017 年 存储 技术 成 熟 度 曲 线 


储 技术 成 熟 度 曲线 ,报告 中 没有 增加 任何 新 兴 技 术 。 

在 2017 年 的 技术 成 熟 度 曲线 中 ,与 存储 安全 相关 的 技术 包括 : Ze GE a OD AG AR H F 
期 ) 移动 设备 数据 备份 工具 (技术 萌芽 期 )、 新 兴 数 据 存 储 保护 方案 (泡沫 破裂 期 )、 灾 备 即 服 
务 ( 泡 沫 破裂 期 )、 虚 拟 机 备份 与 恢复 (稳步 爬升 期 )、 连 续 数据 保护 (稳步 爬升 期 )。 其 中 的 公 
共 云 存储 正 处 在 稳步 爬升 期 ,说 明 大 众 对 云 存 储 的 认 知 度 越 来 越 高 ,相关 技术 供应 商 不 断 完 
善 上 自己 的 产品 ,加 上 用 户 需 求 的 明确 ,产品 在 设计 和 应 用 领域 上 趋 于 成 熟 ,最 佳 实践 开 始 
出 现 。 

zi SER A 2009 年 在 Gartner 公司 的 新 兴 技术 成 熟 度 曲线 中 达到 峰值 以 来 ,已 经 历 了 
8 年 时 间 ,其 发 展开 始 趋 于 理性 , 度 过 三 期 望 膨胀 期 ”, 进 入 "泡沫 破裂 期 ”。 业 界 已 不 再 热 
衷 于 炒作 云 计算 的 概念 ,而 是 将 实现 云 计算 规模 化 应 用 作为 努力 的 方向 。 在 2017 年 存储 技 
术 成 熟 度 曲线 中 ,公共 云 存 储 已 经 进入 “稳步 爬升 期 > ,表明 技 术 已 经 落地 ,进入 实质 生产 
阶段 。 

2017 年 2 月 ,全球 各 大 IT 企业 发 布 财报 显示 , 云 计算 的 营业 收入 及 份额 在 企业 的 总 体 比 
重 中 占据 越 来 越 重 要 的 地 位 。 其 中 ,亚马逊 的 云 业务 实现 营业 收入 174.6 亿美 元 , 排 在 首位 ; 
谷歌 CEO 在 财报 会 上 表示 2017 年 全 年 云 计算 收入 约 40 亿美 元 , 云 计算 成 为 其 继 广告 收入 后 
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的 第 二 大 增长 动力 之 一 ; 阿里 云 2017 年 累计 营业 收入 则 超过 了 百 亿 元 人 民 币 。 据 Gartner 公 
司 的 调研 ,Iaas 市 场 收 入 预计 将 从 2018 年 的 458 亿美 元 增长 到 2020 年 的 724 亿美 元 。 

无 论 从 技术 的 发 展现 状 , 还 是 企业 的 实际 营业 收入 , 云 计算 与 云 存 储 的 发 展 都 已 经 步 人 
了 稳步 卜 升 期 ,并且 在 朝 着 "生产 高 峰 期 2 发展。 从 目前 的 IT 行业 发 展现 状 来 看 , 云 存 储 
的 发 展 趋势 必然 是 一 路 畅通 ,原因 总 结 如 下 ( 非 仅 限于 此 ) 。 

1. 大 数据 发 展 需要 云 计 算 与 云 存储 

2017 年 11 月 11 日 ,淘宝 和 天 猫 商 场 实 现 1682 亿 元 的 销售 额 (淘宝 公布 数据 ) ,11 秒 交 
易 额 突破 1 亿 元 ,28 秒 交 易 额 突破 10 亿 元 ,3 分 01 秒 交 易 额 突破 百 亿 元 ,40 分 12 秒 破 500 
亿 元 ,9 小 时 破 1000 亿 …… 其 背后 功臣 是 阿里 巴巴 研发 的 阿里 云 计 算 及 大 数据 处 理 平台 。 

大 数据 的 规模 效应 给 数据 存储 、 数 据 管理 以 及 数据 分 析 带 来 极 大 的 挑战 , 云 计 算 与 云 存 
储 作 为 大 数据 的 支撑 技术 和 基础 平台 ,必然 会 得 到 IT 企业 的 重视 与 大 力 发 展 。 

2. 人 工 智能 技术 的 发 展 需要 云 计算 与 云 存 储 

人 工 智 能 \、 深 度 学 习 都 是 当前 的 热点 研究 领域 ,但 它们 能 够 大 展 身 手 的 两 个 前 提 条 件 
是 : 强大 的 计算 能 力 和 高 质量 的 大 数据 。 其 中 最 有 代表 性 的 事件 就 是 谷歌 大 脑 (Google 
Brain) 的 建立 , 它 是 一 个 庞大 的 深度 学 习 框 架 , 拥 有 数 万 台 高 性 能 的 计算 机 和 顶级 的 图 形 处 
理 需 作为 计算 单元 。 

2012 Æ 6 月 “谷歌 大 脑 ? 在 “看 ?了 一 千 万 段 YouTube 上 的 视频 ,然后 自己 “学 习 ” 到 如 
何 从 视频 中 识别 一 只 猫 。 今 天 ,有 深度 学 习 的 进步 ,有 基于 互联 网 的 海量 数据 支撑 ,有 谷歌 
强大 的 云 计算 平 台 , “谷歌 大 脑 ” 正 在 帮助 谷歌 公司 解决 横 跨 多 个 领域 的 几乎 上 折 有 人 工 智 能 
的 相关 问题 : 谷歌 的 搜索 引擎 正在 使 用 "谷歌 大 脑 ? 优 化 搜索 结果 的 排序 ,或 直接 回答 用 户 
感 兴 趣 的 知识 性 问题 ; 谷歌 的 街景 服务 使 用 “谷歌 大 脑 ” 智 能 识别 街道 上 的 门牌 号 ,以 进行 
准确 定位 ; 使 用 “谷歌 大 脑 ” 的 谷歌 翻译 平台 在 2016 年 连续 取得 翻译 质量 的 革命 性 突破 ,将 
全 世界 一 百 多 种 语言 的 相互 翻译 质量 提升 了 一 个 层次 ; AKA HS BASIE ETN AK 
大 脑 ? 对 数 百 万 英里 的 行驶 记录 进行 分 析 , 以 改进 驾驶 策略 RE ft MY EE vee 

大 数据 技术 的 发 展 ,给 人 工 智 能 技术 市 来 了 曙光 ,而 人 工 智 能 的 发 展 也 离 不 开 云 计算 与 
云 存储 提供 的 强大 的 计算 和 数据 处 理 能 力 。 

3. 物 联网 的 发 展 需要 云 计 算 与 云 存 储 

当前 已 经 进入 一 个 万 物 互 联 的 时 代 ,互联 的 万 物 又 无 时 无 刻 不 在 产生 大 量 的 数据 。 同 
时 ,各 国 网 络 基础 设施 的 发 展 、 移 动 互 联网 的 发 展 . 即 将 到 来 的 5G 网 络 的 普及 、 智 能 手机 的 
广泛 应 用 ,进一步 促进 对 云 计算 与 云 存 储 的 需求 。 

为 适应 迅速 增长 的 移动 数据 量 ,满足 用 户 计 算 需 求 , 云 计算 技术 通过 互联 网 提供 了 动态 
WR A Fig MITE IRS. Wit AWS. 谷歌 Drive, 百度 开放 云 和 阿里 云 等 云 存 储 服 
务 应 用 纷纷 推出 各 类 智能 终端 接 和 的 云 存 储 解决 方案 ,降低 了 智能 手机 等 移动 终端 的 存储 
开销 ,提供 便利 的 数据 接 人 和 数据 分 享 。 

云 存 储 可 以 实现 任意 地 点 、 任 意 时 间 、 任 意 数 据 访 问 及 保障 法 规章 从 的 需求 等 。 对 存储 
需求 不 可 预测 、 需 要 廉价 存储 的 用 户 来 说 , 按 需 购买 存储 容量 的 云 存 储 与 一 次 性 购买 整套 存 
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储 系统 相 比 显然 会 带 来 更 多 的 方便 和 效益 , 且 云 存储 在 为 用 户 节 省 投资 的 同时 也 节约 了 社 
会 资源 与 能 源 。 当 用 户 将 数据 存放 在 云 存储 中 ,他 们 最 关心 的 是 数据 是 否 安全 ; 是 否 存 在 
隐私 泄露 ; 数据 是 否 完 整 无 误 ; 如 果 出 现 故障 ,是 否 可 以 恢复 其 数据 等 。 


1.3 云 存 储 安全 


因为 云 存 储 的 安全 性 、 可 靠 性 及 服务 水 平等 还 存在 众多 问题 吸 待 解决 ,所 以 云 存 储 安 全 
技术 也 得 到 了 广泛 关注 。 下 文 将 分 析 云 存储 服务 中 为 什么 存在 安全 问题 ,然后 详细 介绍 存 
在 的 安全 威胁 ; 为 了 应 对 这 些 威胁 ,需要 解决 哪些 问题 ; 如 果 解 决 了 这 些 问题 ,仍然 面临 怎 
样 的 挑战 。 


1.3.1 为 什么 有 安全 问题 


与 传统 存储 相 比 , 云 存储 ,特别 是 公共 云 存 储 为 什么 会 有 更 多 的 安全 问题 ? 总 结 起 来 ， 
认为 主要 有 如 下 几 个 原因 "2 。 

1. 云 存 储 的 租用 商业 模式 

在 传统 存储 系统 中 ,数据 用 户 拥 有 存储 系统 的 完全 控制 权 ,而 且 存 储 资 源 完全 由 用 户 支 
配 ,不 需要 与 其 他 用 户 共 享 。 这 种 情况 下 ,保障 安全 的 重点 是 防范 外 部 的 攻击 者 。 

而 在 公共 云 存储 中 ,数据 所 有 权 和 管理 权 分 离 ,用户 一 旦 将 数据 迁移 到 云 上 ,就 失去 了 
对 数据 的 直接 控制 权 。 存 储 资源 由 服务 提供 者 控制 ,并 且 会 通过 虚拟 化 的 方式 将 存储 资源 
同时 租 给 多 个 用 户 使 用 。 此 时 不 仅 要 防范 外 部 的 攻击 者 ,内 部 威胁 更 为 严重 ,比如 恶意 的 云 
管理 员 、 可 利用 的 安全 漏洞 .不当 的 访问 接口 等 。 用 户 的 隐私 数据 不 仅 可 能 暴露 给 云 服 务 提 
供 商 ,而 且 还 可 能 暴露 给 包括 竞争 对 手 在 内 的 其 他 用 户 。 另 外 ,在 PaaS 和 SaaS 中 ,因为 对 
加 密 数 据 的 处 理 技术 还 不 成 熟 ,一般 以 明文 形式 处 理 , 从 而 导致 其 中 的 敏感 数据 直接 暴露 给 
云 服 务 提供 商 和 同一 机 器 上 的 其 他 租户 。 

2. 虚拟 化 技术 的 采用 

虚拟 化 技术 是 云 计 算 与 云 存 储 的 关键 文 撑 技 术 。 通 过 虚拟 化 ,一 方面 可 以 将 一 些 零散 
的 资源 整合 到 一 个 资源 池 ,比如 早期 Google 将 成 千 上 万 台 PC 通过 集群 系统 整合 到 一 起 ， 
作为 他 们 的 后 台 服 务 器 ; 男 一 方面 ,可 以 将 强大 的 资源 分 解 成 一 个 个 小 单元 ,为 不 同 用 户 提 
供 服务 ,比如 目前 的 公共 云 存 储 服 务 ,就 是 将 大 量 的 存储 资源 通过 虚拟 化 分 解 成 一 个 个 逻辑 
的 存储 服务 器 提供 给 不 同 用 户 使 用 。 

虚拟 化 技术 相当 于 云 计 算 与 云 存 储 平 台 的 操作 系统 ,是 资源 能 够 动态 伸缩 并 得 到 充分 
利用 的 关键 。 通 过 对 CPU 内存、 硬盘 等 便 件 资源 的 虚拟 化 ,同一 台 物 理 机 上 可 以 同时 运行 
多 台 虚 拟 机 。 尽 管 这 些 共 享 着 相同 硬件 资源 的 虚拟 机 在 虚拟 机 监控 需 (Virtual Machine 
Monitor, VMM) sk Hypervisor( 虚 拟 机 管理 程序 ) 的 管理 下 彼此 隔离 ,但 攻击 者 仍然 可 以 通 
过 旁 路 侦 听 虚拟 机 逃逸 流量 分 析 等 攻击 手段 从 一 台 虚 拟 机 上 获取 其 他 虚拟 机 上 的 数据 。 

作为 虚拟 化 的 核心 技术 ,Hypervisor 运行 在 比 操作 系统 特权 还 高 的 最 高 优先 级 上 。 它 
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可 以 捕获 CPU 指令 ,为 指令 访问 硬件 控制 希 和 外 设 充 当中 介 , 协 调 所 有 CPU 资源 分 配 。 
— H. Hypervisor 被 攻击 破解 ,在 Hypervisor 上 的 所 有 虚拟 机 将 无 任何 安全 保障 。 

虚拟 机 动态 地 被 创建 ,被 迁移 ,其 安全 措施 必须 相应 地 自动 创建 \ 自 动迁 移 。 因 为 虚拟 
机 可 以 在 两 层 网 络 中 任意 迁移 ,在 迁移 的 过 程 中 其 安全 防护 更 加 困难 。 虚 拟 机 的 安全 措施 
如 果 没 有 有 自动 创建 ,会 导致 虚拟 机 的 管理 密 钥 被 盗 而 使 相应 的 服务 遭受 攻击 。 因 此 ,虚拟 化 
技术 市 来 了 极 大 的 安全 威胁 。 因 为 其 权限 太 大 ,还 没有 很 好 的 防护 手段 。 

3. 多 租户 共享 

多 租户 共享 同一 云 服 务 提 供 商 的 IT 资源 ,也 是 导致 云 架 构 不 安全 的 一 大 隐患 。 特 别 
是 在 SaaS 云 模型 中 ,如 Google Docs 中 同一 个 应 用 进程 可 以 同时 为 多 个 租户 所 用 。 这 些 租 
户 的 数据 一 般 存 放 在 同一 张 数 据 表 中 ,采用 标签 进行 区 分 。 虽 然 可 利用 访问 控制 技术 来 确 
保 每 个 租户 只 能 访问 自己 的 数据 ,但 恶意 租户 利用 系统 漏洞 或 劳 路 攻击 等 方法 仍然 可 以 获 
得 其 他 用 户 的 数据 。 另 外 ,在 SaaS 服务 模式 中 ,数据 以 明文 形式 处 理 , 云 服务 器 可 以 读 
取 内 存 中 租户 的 数据 。 

4. zit S B) tit 

很 多 中 小 企业 缺乏 信息 安全 管理 技术 与 基础 设施 ,迫切 需要 寻求 一 种 安全 的 数据 处理 
与 存储 平台 ,那么 公共 云 计算 与 云 存 储 服 务 便 是 一 个 最 佳 的 选择 。 因 为 强大 的 云 计 算 服 务 
提供 商 可 以 利用 最 先进 的 安全 技术 来 保障 其 IT 基础 设施 ,包括 硬件 、 系统 、 软 件 与 网 络 等 
的 安全 ,同时 为 用 户 数据 提供 更 完备 的 安全 保障 。 但 如 上 所 述 ,公共 云 计 算 与 云 存 储 反而 市 
来 了 更 多 的 安全 问题 , 即 有 很 好 的 安全 却 又 反而 不 安全 。 

同时 ,恶意 的 用 户 也 可 以 利用 强大 的 云 计算 资源 发 起 攻击 ,而 且 还 将 自己 隐蔽 在 合法 的 
用 户 中 。 正 如 随 着 互联 网 和 摄像 头 的 普及 ,一 方面 让 犯罪 分 子 无 处 通 形 , 另 一 方面 也 让 用 户 


的 个 人 隐私 暴露 无 遗 。 
以 上 总 结 了 云 存 储存 在 安全 问题 的 几 个 原因 ,下 文 将 对 主要 的 云 存 储 安全 威胁 进行 
介绍 。 


1.3.2 云 存储 安全 威胁 


2010 年 9 月, 发现 Google 员工 利用 职权 查看 了 多 个 用 户 的 隐私 数据 ; 2011 年 3 A. 
Google 邮箱 再 曝 大 规模 用 户 数据 泄露 ; 2011 年 4 月 ,Amazon 的 EC2 云 计 算 服 务 被 黑客 租 
用 ,对 Sony PlayStation 网 站 进行 了 攻击 ,造成 大 规模 用 户 数 据 的 泄露 ; 2012 年 8 月 ,苹果 
公司 的 iCloud 云 服务 受到 黑客 攻击 ,黑客 暴力 破解 用 户 密码 后 ,删除 了 部 分 用 户 资料 ,而 云 
平台 并 未 备份 用 户 数据 ,从 而 导致 用 户 数据 的 丢失 ,并 致使 用 户 Gmail 和 Twitter 账号 被 
盗 ; 2014 年 8 月 ,美国 版 “艳照 门 ”iCloud Zi / ilt; 2014 年 9 月 ,黑客 利用 苹果 iCloud z 
Aj Ae ZC HJ URS Te E Hz CS PES 2014 年 10 月 ,美国 资产 规模 最 大 的 银行 一 一 摩根 大 通 由 于 计 
算 机 系统 遭 到 网 络 攻击 ,7600 万 家 庭 和 700 万 小 企业 的 相关 信息 被 泄露 ; 2015 年 4 月 ,上 
海 .重庆 等 超 30 个 省 市 约 5000 万 用 户 社保 信息 被 泄露 ; 2015 年 6 月 ,工商 银行 快捷 支付 被 
曝 存 在 严重 漏洞 ,发 生 许 多 工行 储户 存款 被 盗 事件 ; 2015 年 9 月 ,亚马逊 AWS 云 服 务 发 生 
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宕 机 事件 ,给 其 数 家 互联 网 公司 客户 带 来 了 巨大 的 影响 ; 2015 年 10 月 ,网 易 邮 箱 过 亿 用 户 
信息 被 泄露 ; 2016 年 4 月 ,土耳其 方面 爆发 重大 数据 泄露 事件 ,直接 导致 近 5000 万 土耳其 
公民 的 个 人 信息 遭 到 威胁 ; 2017 年 2 月 ,知名 云 安 全 服务 商 Cloudflare 8£ Bg jt He Hi P 
HTTPS 网 络 会 话 中 的 加 密 数 据 长 达 数 月 …… 此 类 事件 不 胜 枚 举 。 

随 着 金融 文 付 等 业务 的 广泛 应 用 , 云 存 储 系 统 承 载 了 大 量 的 用 户 金 融 文 付 和 私人 文件 
等 非常 敏感 的 数据 。 因 此 , 云 存储 的 安全 性 成 为 制约 其 未 来 发 展 的 关键 因素 。 

如 前 所 述 , 云 存储 是 一 个 以 数据 存储 和 管理 为 核心 的 云 计 算 系 统 ,所 以 云 计算 的 安全 威 
胁 一 样 适用 于 云 存 储 。 

为 了 让 企业 了 解 云 计算 的 安全 问题 ,以便 采 取 适 合 的 安全 策略 , 云 计算 安全 联盟 (Cloud 
Security Alliance,CSA) 发 布 了 “2016 年 云 计算 安全 的 12 KM. EA RAE ZAHN 
列 出 的 12 个 最 重要 的 云 安全 问题 (按照 调查 结果 的 严重 程度 排列 ) 。 

1. 数据 泄露 

数据 作为 企业 的 重要 资产 ,很 容易 成 为 黑客 攻击 的 目标 。 它 可 能 涉及 任何 不 适合 公开 
发 布 的 信息 ,包括 个 人 身份 信息 、 个 人 健康 信息 、 财 务 信息 、 商 业 机 密 和 知识 产权 等 。 一 旦 发 
生 数 据 泄 露 ,企业 有 可 能 会 收 到 巨额 罚 秋 或 面临 法 律 诉讼 ,甚至 是 刑事 指控 ,也 会 造成 品牌 
形象 下 跌 和 业务 流失 ,会 对 企业 造成 持续 的 不 恨 影响 甚 至 破产 。 数 据 汇 露 风 险 并 不 是 云 计 
算 独 有 的 ,但 它 始 终 是 云 计 算 用 户 的 首要 考虑 因素 。 

2. 身份 .凭证 和 访问 控制 不 善 

数据 泄露 和 一 些 攻击 通 稼 都 是 因为 身份 验证 、 弱 口令 和 管理 松散 等 问题 引起 的 。 云 计 
算 安 全 联盟 表示 ,网 络 犯罪 分 子 伪装 成 合法 用 户 、. 运 营 人 员 或 开发 人 员 ,可 以 读 取 、 修 改 和 删 
除数 据 ,获得 管理 权限 ,在 用 户 传输 数据 过 程 中 盗 取 数据 ,甚至 发 布 恶意 软件 。 

美国 第 二 大 医疗 保险 公司 Anthem 数据 泄露 事件 中 ,超过 8 千 万 客户 记录 被 次 ,就 是 用 
户 凭 证 被 盗 的 结果 。Anthem 没有 采用 多 因子 身份 验证 ,因此 一 旦 攻击 者 获得 了 和 凭证 ,进出 
系统 如 入 无 人 之 境 。 

3. 不 安全 的 访问 接口 和 应 用 程序 接口 (API) 

云 计算 提供 商 提供 了 一 组 客户 使 用 的 软件 用 户 界 面 (User Interface, UD 和 应 用 程序 接 
O (Application Programming Interface,APJI) 来 方便 用 户 与 云 服 务 硕 的 交互 。 访 问 接 口 和 
API 通 常 都 可 以 从 公 网 访问 ,因此 成 为 系统 的 对 外 接口 ,也 最 容易 成 为 被 攻击 的 目标 。 

不 安全 的 访问 接口 和 有 漏洞 的 API 将 使 企业 面临 很 多 安全 问题 ,机 密 性 、 完 整 性 、 可 用 
性 和 可 徘 性 都 会 受到 考验 。 云 计算 安全 联盟 称 , 从 和 号 份 验证 和 访问 控制 ,到 数据 加 密 和 行为 
监测 ,都 依赖 这 些 访问 接口 和 API, 因 此 这 些 访问 接口 和 API 的 安全 性 至 关 重 要 。 

4. 系统 漏洞 

系统 浩 洞 是 指 攻 击 者 可 以 用 来 人 侵 系 统 , 祝 取 数 据 .控制 系统 或 破坏 服务 操作 的 程序 漏 
ib. 。 因 为 云 存 储 的 多 租户 特性 ,不 同 用 户 使 用 相同 的 存储 基础 设施 ,并 且 人 允许 访问 共享 内 存 
和 资源 ,导致 存在 安全 风险 。 

云 计算 安 全 联盟 表示 ,操作 系统 组 件 中 的 漏洞 使 得 所 有 服务 和 数据 面临 的 安全 风险 最 
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大 。 虽 然 修 复 系统 漏洞 的 开支 比 其 他 IT 支出 要 多 一 些 , 但 在 部 署 基础 设施 的 过 程 中 修复 
漏洞 的 开支 ,会 比 因 为 漏洞 而 遭受 攻击 的 损失 少 得 多 。 

5. 账户 劫持 

劫持 账户 是 一 种 常见 的 攻击 方法 ,比如 利用 网 络 钓鱼 .诈骗 、 软 件 漏洞 等 劫 持 合法 账户 ， 

后 进行 一 系列 的 非法 操作 。 比 如 宠 听 用 户 行 为 , 当 进 行文 付 动作 时 ,将 用 户 重 定 回 到 非法 
而 且 , 有 些 云 服 务 还 共享 访问 凭证 ,从 而 出 现 一 个 服务 的 账户 被 劫持 ,会 导致 其 他 的 
服务 也 不 安全 。 

另外 ,在 云 存储 环境 下 ,合法 账户 被 动 持 后 ,攻击 者 可 以 访问 云 存储 服务 的 关键 区 域 。 
它 的 目标 可 能 并 不 是 被 动 持 的 用 户 , 而 是 与 之 相 邻 的 其 他 用 户 , 从 而 危及 其 他 用 户 数据 的 机 
密 性 、 完 整 性 与 可 用 性 。 

6. 内 部 威胁 

计算 机 安全 应 急 啊 应 组 (Computer Emergency Response Team,CERT) 是 专门 处 理 计 
算 机 网 络 安全 问题 的 组 织 。 早 在 2000 年 ,该 组 织 即 已 开展 内 部 威胁 检测 项 目 。 根据 CERT 
的 定义 ,内 部 威胁 是 指 一 个 或 多 个 现在 或 以 前 的 公司 员工 外包 商 或 合作 伙伴 ,具有 对 网 络 、 
系统 或 数据 的 访问 权限 ,故意 滥用 或 误 用 自己 的 权限 损害 公司 信息 或 信息 系统 的 机 密 性 、 完 
整 性 与 可 用 性 。 

内 部 威胁 是 云 计算 安全 面临 的 最 严重 的 挑战 之 一 。2013 年 “斯 诺 登 事件 > 即 由 内 部 人 
员 公 开 内 部 数据 ,从 而 引起 媒体 广泛 关注 ,而 这 只 是 内 部 威胁 的 冰山 一 角 。SailPoint 安全 
公司 曾 做 过 一 个 安全 调查 , 受 访 者 中 20% 的 人 表示 只 要 价钱 合适 便 会 出 卖 自己 的 工作 账号 
和 密码 。 美 国 计 算 机 安全 协会 (CSD 和 联邦 调查 局 (FBI) 在 2008 年 的 报告 中 指出 ,内 部 安 
全 事件 所 造成 的 损失 明显 高 于 外 部 安全 事件 。2015 年 普 华 永 道 的 调查 指出 ,中 国内 地 与 香 
港 特别 行政 区 的 企业 信息 安全 事件 中 50% 以 上 是 由 内 部 人 员 造 成 的 。 

云 计算 安 全 联盟 表示 ,虽然 有 些 威胁 的 严重 程度 是 有 争议 的 ,但 在 某 一 点 上 是 有 共识 
的 , 即 内 部 威胁 是 一 个 真正 的 威胁 。 怀 有 恶意 的 内 部 人 员 ( 如 系统 管理 员 ) 可 以 访问 潜在 的 
敏感 信息 ,可 以 更 多 地 访问 更 重要 的 系统 ,并 最 终 访问 数据 。 仅 依靠 云 服 务 提 供 商 提供 安全 
措施 的 系统 将 面临 更 大 的 风险 。 

7. 高 级 持续 性 威胁 

高 级 持续 性 威胁 (Advanced Persistent Threats. APT) Mi ,也 称 针 对 性 攻击 ,是 一 种 寄 
生 的 网 络 攻击 方式 , 它 渗透 到 目标 公司 IT 基础 设施 中 ,建立 自己 的 立足 点 ,从 中 窃取 数据 。 
常见 的 渗透 方式 包括 网 络 钓鱼 、.U 盘 预 载 恶 意 软 件 .通过 被 黑 的 第 三 方 网 络 等 。APT 混入 
正常 网 络 流量 ,因此 很 难 被 侦 测 到 。 对 此 ,除了 云 服 务 提供 商 要 应 用 高 级 安全 策略 阻止 
APT 渗透 进 他 们 的 基础 设施 , 云 用 户 也 要 经 常 检测 自己 的 账户 是 否 存 在 APT 行为 。 

8. 数据 丢失 

当 出 现 火 灾 或 地 震 等 自然 灾害 .遭受 攻击 和 服务 器 损坏 等 各 种 意外 情况 时 ,都 可 能 导致 
客户 数据 的 永久 丢失 。 相 应 的 法 律 法 规 通常 会 规定 公司 必须 保留 审计 记录 和 其 他 文件 的 时 
限 , 若 此 类 数据 丢失 ,就 会 造成 严重 的 监管 后 果 。 
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随 着 云 服务 技术 的 成 熟 , 由 服务 提供 商 失误 导致 的 永久 数据 丢失 已 经 比较 少见 了 ,倒是 
恶意 黑客 会 利用 删除 云端 数据 的 方式 来 危害 公司 。 对 于 云 服 务 提 供 商 来 说 ,多 地 分 布 式 部 
署 其 云 服 务 平 台 ,建立 好 的 数据 备份 与 恢复 机 制 ,遵循 业务 持续 性 和 灾难 恢复 最 佳 实践 ,都 
是 最 基本 的 防止 永久 数据 丢失 的 方法 。 

9. 对 拟 采 用 的 服务 调研 不 足 

企业 在 没有 完全 理解 云 环境 及 其 相关 风险 的 情况 下 ,就 购置 云 服务 ,会 存在 很 多 商业 、 
金融 、 技 术 法律 和 合 规 风险 。 企 业 是 否 需要 将 其 数据 和 应 用 迁移 到 云 环境 ,怎样 选择 服务 
提供 商 ,都 要 进行 充分 的 调研 ,尤其 要 仔细 审查 服务 提供 商 的 资质 和 合同 中 的 责任 条 款 。 

云 计 算 安 全 联盟 表示 ,企业 管理 层 在 制定 战略 时 ,要 对 云 计算 技术 和 服务 提供 商 进 行 评 
估 和 考量 ,而 且 应 制定 一 个 恨 好 的 考量 策略 ,明确 他 们 要 承担 的 风险 。 

10. 滥用 云 服务 

云 服 务 可 以 帮助 企业 减少 初始 投资 和 管理 成 本 ,但 同时 , 它 也 可 能 被 攻击 者 用 来 开展 违 
法 活动 ,比如 利用 云 计 算 资 源 破解 密 钥 、 利 用 云 计 算 资 源 来 定位 用 户 、 发 起 分 布 式 拒绝 服务 
(Distributed Denial of Service,DDoS) 攻 击发 送 垃 圾 邮件 和 钓鱼 邮件 托管 恶意 内 容 等 。 

服务 提供 商 要 能 够 识别 各 种 类 型 的 云 服 务 滥用 情况 ,比如 通过 检测 流量 识别 DDoS IX 
击 ,企业 也 要 确保 服务 提供 商 拥 有 服务 滥用 的 报告 机 制 和 预防 机 制 。 

11. 拒绝 服务 

这 种 威胁 也 属于 滥用 云 服 务 的 一 种 ,恶意 用 户 占 用 大 量 的 云 计算 资源 ,如 CPU 内存、 
磁盘 空间 或 网 络 融 宽 ,导致 合法 用 户 不 能 正 稼 访问 其 数据 或 应 用 。 

针对 拒绝 服务 (Denial of Service,DoS) 攻 击 ,需要 云 服 务 提 供 商 有 较 好 的 攻击 检测 与 预 
防 机 制 , 当 出 现 攻击 时 ,有 办 法 抵御 攻击 并 能 快速 恢复 正常 服务 。 

12. 共享 架构 中 的 技术 漏洞 

云 计 算 服务 提供 商 通过 共享 基础 架构 .平台 和 应 用 程序 来 实现 多 租户 共享 资源 ,在 节省 
大 量 成 本 的 同时 ,也 市 来 了 客户 的 数据 安全 风险 。 在 对 各 类 资源 进行 隔离 中 可 能 存在 的 各 
类 技术 漏洞 ,可 能 在 所 有 交付 模式 中 被 攻击 者 利用 。 

2016 年 4 月 ,欧洲 议会 投票 通过 了 商讨 4 年 之 久 的 《一 般 数据 保护 条 例 》(General Data 
Protection Regulation, GDPR). BEREH 91 个 条 文 ,共计 204 页 。 该 条 例 将 于 2 年 后 ， 
BP 2018 年 5 月 25 日 正式 生效 。 新 条 例 的 通过 意味 着 欧盟 对 个 人 信息 保护 及 其 监管 达到 了 
前 所 未 有 的 高 度 ,可 称 为 史上 最 严格 的 数据 保护 条 例 。 非 欧盟 成 员 国 的 公司 (包括 免费 服 
务 ) 只 要 满足 下 列 两 个 条 件 之 一 : 中 为 了 回 欧 盟 境 内 可 识别 的 自然 人 提供 商品 和 服务 而 收 
集 ` 处 理 他 们 的 信息 。 包 为 了 监控 欧盟 境内 可 识别 的 上 自然人 的 活动 而 收集 、 处 理 他 们 的 信 
息 。 这 些 公司 就 受到 GDPR 的 管辖 。 这 个 条 例 将 对 中 国企 业 的 数据 管理 和 信息 安全 ,以 及 
数据 收集 、 人 处 理 和 交易 产生 重大 影响 。 

对 于 一 般 性 的 违法 ,罚款 上 限 是 1000 万 欧元 或 企业 上 一 年 度 全 球 营 业 收 入 的 2% (两 
者 中 取 数 额 大 者 ); 对 于 严重 的 违法 ,罚款 上 限 是 2000 万 欧元 或 企业 上 一 年 度 全 球 营业 收 
入 的 4%( 两 者 中 取 数 额 大 者 )。 
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我 国 于 2017 年 6 月 1 日 起 施行 4 中华 人民 共 和 国 网 络 安 全 法 》 和 最 高 人 民法 院 、 最 高 人 
民 检 察 院 《关于 办 理 侵 犯 公 民 个 人 信息 刑事 案件 适用 法 律 奋 干 问题 的 解释 》 以 加 强 网 络 安 
全 和 个 人 隐私 保护 。 其 中 规定 ,非法 获取 、 出 售 或 者 提供 公民 个 人 信息 5000 条 以 上 .违法 所 
得 5000 元 以 上 可 入 罪 。 

针对 信息 安全 领域 的 法 律 法 规 建 设 是 应 对 云 存 储 安全 威胁 的 一 项 有 力 举 措 。 


1.3.3 需要 解决 的 几 个 问题 


综 上 所 述 , 根 据 云 存储 中 安全 问题 的 根源 和 云 计算 的 12 大 安全 威胁 ,总 结 出 要 保障 云 
存储 安全 需要 解决 的 几 个 问题 。 

1. 云 存 储 安全 体系 结构 

安全 是 一 项 系统 工程 ,需要 系统 化 的 方法 和 机 制 来 保障 全 面 的 安全 。 云 存储 提供 的 是 
可 伸缩 的 数据 服务 ,无 法 清晰 地 定义 安全 边界 及 保护 设备 ,这 给 制定 并 实施 云 存 储 的 安全 保 
护 措施 增加 了 难度 。 因 此 ,对 云 存储 安全 体系 结构 要 有 明确 的 定义 和 界限 划分 ,使 其 能 够 清 
晰 地 描述 安全 体系 结构 的 层次 、 各 层 之 间 的 接口 .各 层 需 要 采取 的 安全 机 制 ,以 及 可 以 保障 
哪些 方面 的 安全 ,从 而 形成 一 套 保障 安全 的 系统 化 的 体系 结构 。 

2. 云 存储 虚拟 化 安全 

如 上 所 述 ,虚拟 化 是 安全 问题 的 根源 之 一 。 因 其 权限 大 ,管辖 范围 广 , 在 云 存储 安全 风 
险 中 占据 了 很 大 比重 。 对 不 同 的 云 用 户 来 说 , 云 存 储 系 统 是 一 个 相同 的 物理 系统 ,而 不 青 像 
传统 网 络 一 样 有 物理 的 阳 离 和 防护 边界 ,由 此 虚拟 系统 被 越界 访问 等 无 法 保证 数据 隔离 性 
的 问题 也 就 难以 避免 。 因 此 , 云 存储 虚拟 化 安全 就 是 要 保障 数据 的 安全 隔离 ,防范 各 类 系统 
a ile] AAT A fs HE BC o 

3. 云 存储 系统 访问 控制 

云 存储 服务 面临 的 威胁 ,首先 来 自 于 号 份 认证 和 访问 控制 问题 。 作 为 云 存 储 服务 的 访 
问 入 口 ,它们 一 旦 被 攻破 ,就 犹如 城 门 失守 ,入 侵 者 必 将 长 驱 直 入 ,下 接 威 胁 到 云 存储 的 安 
全 。 因 此 , 云 存 储 系 统 的 访问 控制 ,包括 系统 的 认证 与 授权 ,需要 根据 云 存 储 系统 的 应 用 需 
求 , 有 较 完 备 的 安全 有 宁 略 和 实施 方法 。 

4. 云 存 储 数据 机 密 性 保障 

在 信息 安全 的 三 要 素 中 ,数据 机 密 性 是 排 在 第 一 位 ,其 重要 性 不 言 而 噜 。 在 云 存储 服务 
中 ,因为 数据 存储 在 云 服 务 关 上 ,用 户 失去 了 对 数据 的 完全 控制 权 , 那 么 要 保 隐 数据 的 机 密 
性 ,通常 就 是 在 数据 上 传 到 云 服务 带 之 前 ,对 数据 进行 加 密 处 理 。 云 环境 下 有 羞 海量 的 数 
据 , 因 此 需要 轻 量 级 的 快速 加 密 算法 ; 数据 加 密 后 ,传统 的 信息 检索 机 制 不 再 适用 ,需要 相 
应 的 密 文 搜索 算法 ; 同时 也 需要 支持 密 文 处 理 的 加 密 算 法 ,因为 存在 一 些 诸如 密 文 数据 的 
共享 、 密 文 数据 挖掘 、 密 文 数据 去 重 等 问题 需要 解决 。 

5. 云 存 储 数据 完整 性 保障 

数据 上 传 到 云 服 务 副 后 ,怎样 保障 数据 不 被 自 改 或 删除 ? 怎样 检测 到 这 些 不 法 行为 ? 
因此 ,需要 一 些 数据 完整 性 保障 机 制 , 可 以 实现 数据 持 有 性 验证 ,检测 到 数据 是 否 被 复 改 ; 
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如 果 算 改 , 又 怎样 进行 恢复 。 

6. 云 存 储 数据 备份 与 恢复 

云 存储 系统 也 要 考虑 极端 情况 下 的 数据 安全 ,比如 地 震 、 江 水、 火灾 等 可 能 的 天 灾 人 祸 
带 来 的 数据 安全 风险 。 在 灾难 发 生 时 如 何 避 人 免 数据 服务 中 断 及 数据 丢失 等 问题 ,通常 是 通 
过 各 种 备份 技术 来 保障 系统 的 可 靠 性 和 数据 的 恢复 。 

7. 云 存 储 入 侵 检 测 

云 存储 系统 作为 一 个 公共 数据 中 心 ,具有 多 客户 连接 、 高 交互 性 、 数 据 安全 保障 要 求 高 
等 特点 ,对 入 侵 、 攻 击 .病毒 和 恶意 软件 十 分 敏感 ,有 必要 对 云 存 储 中 的 数据 流 进 行 实 时 、 主 
动 的 检测 和 防御 。 

8. 云 存 储 应 用 最 佳 安全 实践 

要 保障 云 存 储 应 用 安全 ,通常 有 一 些 安全 规则 ,它们 需要 从 日 常 实践 中 进行 归纳 与 总 
结 ,还 包括 制定 云 存 储 服 务 安全 标准 ,从 而 实现 云 存储 服务 安全 、 健 康 地 发 展 。 

针对 这 些 需 要 解决 的 问题 ,本 书 将 逐一 进行 讨论 ,结合 已 有 的 技术 和 最 新 的 研究 成 果 ， 
提出 以 上 问题 的 一 般 解 决 方案 。 不 过 ,除了 上 述 需 要 解决 的 问题 ,在 云 存 储 服 务 中 仍然 面临 
一 些 目前 还 无 较 好 解决 办 法 的 挑战 。 


1.3.4 面临 的 挑战 


上 一 小 节 提 出 的 几 个 问题 可 以 通过 各 种 技术 手段 来 解决 ,但 对 于 云 存储 ,仍然 存在 一 些 
目前 还 没有 较 好 技术 手段 可 以 解决 的 问题 。 这 些 人 们 面临 的 挑战 列举 如 下 ( 非 仅 限 于 此 )。 

1. 数据 的 可 信和 删除 

云 存储 服务 的 用 户 可 能 某 天 不 需要 这 个 服务 了 ,怎样 保障 她 /他 的 数据 被 完全 彻底 地 删 
R? 对 于 传统 存储 ,因为 用 户 拥有 IT 基础 设施 的 完全 控制 权 , 可 以 利用 技术 手段 ,将 服务 
需 上 的 数据 彻底 删除 。 但 在 云 存储 服务 中 , 当 某 个 用 户 离开 该 云 服务 后 ,她 /他 使 用 过 的 磁 
盘 会 租赁 给 其 他 用 户 。 如 上 所 述 , 通 稼 数据 删除 只 是 在 文件 系统 中 将 相应 的 文件 索引 删除 ， 
而 没有 进行 物理 上 的 数据 删除 。 即 当 用 户 删 除 硬 盘 上 的 数据 时 ,并 没有 将 数据 真正 从 计算 
机 的 硬盘 上 删除 ,只 是 删除 了 相应 文件 的 索引 。 即 使 对 磁盘 进行 格式 化 ,也 只 是 为 操作 系统 
创建 一 个 新 的 索引 ,将 磁盘 的 大 区 标记 为 未 使 用 ,其 之 前 的 数据 记录 并 没有 被 删除 ,因此 仍 
然 可 以 恢复 磁盘 上 之 前 存放 的 数据 。 

在 云 存 储 环境 下 ,还 没有 很 好 的 技术 手段 可 以 保证 云 服 务 提供 商会 彻底 删除 离开 该 服 
务 的 用 户 的 数据 。 

2. 数据 外 包 模 式 下 的 内 部 威胁 

当 数 据 外 包 存 储 在 云 上 , 云 服 务 吕 的 管理 员 客 观 上 就 具备 了 偷 筑 和 泄露 用 户 数 据 的 能 
力 , 如 何 保证 云 存 储 服务 的 内 部 管理 人 员 不 丛 宁 不 泄露 .不 破坏 用 户 的 数据 ,成 为 一 个 极 具 
挑战 性 的 问题 ,也 成 为 近年 来 学 术 界 和 工业 界 共 同 关 注 的 热点 。 

3. 数据 迁移 风险 

经 济 时 代 , 行 业 市 场 瞬 奶 万 变 , 一 些 云 服务 提供 商 可 能 因为 各 类 原因 停止 提供 云 存 储 服 
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务 ,或 者 用 户 对 当前 的 云 服务 提供 商 的 服务 或 用 户 条 款 产 生 不 满 ,希望 换 一 家 云 服务 提供 
商 ,这 时 用 户 就 需要 将 其 数据 迁移 ,那么 原来 存储 在 云 服 务 器 上 的 数据 便 会 成 为 一 个 极 大 的 
安全 隐患 。 

4. 加 密 数 据 的 处 理 

在 传统 的 存储 系统 中 ,一 般 采 用 加 密 方 式 来 确保 存储 数据 的 安全 性 和 隐私 性 。 在 laas 
云 服 务 模式 中 ,如 果 用 户 只 是 用 来 存放 数据 ,那么 加 密 数 据 是 没有 问题 的 ; 但 在 PaaS 和 
SaaS 云 模式 中 ,用 户 需 要 在 云端 对 数据 进行 处 理 , 如 果 数 据 被 加 密 , 各 种 处 理 操作 将 变 得 困 
难 。 这 也 是 云 存储 面临 的 一 个 安全 悖 论 : 加 密 数 据 可 以 保障 数据 的 安全 性 和 隐私 性 ,但 却 
让 数据 不 能 在 云端 进行 各 类 处 理 操作 。 


1.4 BENS 


本 划 从 云 存 储 的 兴起 讲 起 ,详细 介绍 了 云 存 储 的 发 展现 状 与 趋势 。 具 体 来 说 ,包括 云 计 
算 与 云 存 储 的 定义 、 服 务 模型 和 分 类 ,用 数据 说 明了 为 什么 需要 云 存 储 , 从 技术 成 熟 度 曲线 
角度 介绍 了 云 存储 的 发 展现 状 , 从 未 来 的 需求 角度 说 明了 云 存 储 的 发 展 趋 势 。 接 下 来 ,针对 
大 家 普遍 关心 的 云 存储 的 安全 性 ,详细 说 明了 为 什么 会 有 云 存储 安全 问题 ,并 总 结 了 CSA 
报告 的 12 大 云 计算 安全 威 肋 。 针 对 这 些 安全 问题 和 威胁 ,提出 需要 解决 的 几 个 问题 ,从 而 
引出 本 书 将 要 详细 介绍 的 云 存 储 安 全 技术 。 除 了 可 以 使 用 技术 手段 解决 的 这 些 安全 问题 ， 
本 章 也 进一步 指出 了 云 存 储 仍然 面临 的 挑战 。 

本 间作 为 全 书 的 基础 ,为 下 文 做 铺垫 ,引出 本 书 将 重点 介绍 的 一 些 云 存储 安全 技术 ,在 
下 文中 将 逐一 详细 讲解 。 
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云 存储 安全 体系 结构 


“万 丈 高 楼 平地 起 ”需要 牢固 的 根基 与 框架 设计 ,在 研究 云 存储 安全 时 ,也 需要 首先 制定 
良好 的 体系 结构 。 如 同 计算 机 网 络 中 的 分 层 体系 结构 让 计算 机 网 络 协议 的 设计 变 得 清晰 与 
明白 ,在 云 环境 下 云 存储 安全 体系 也 是 采用 分 层 式 结构 。 


2.1 云 存 储 安 全 体系 


本 节 介 绍 云 存储 安全 体系 。 首先 曾 述 云 存储 系统 的 层次 模型 ; 然后 在 对 应 层次 模型 
下 ,介绍 云 存 储 系统 安全 体系 结构 。 


2.1.1 云 存储 系统 层次 模型 


与 传统 的 存储 系统 相 比 , 云 存 储 系 统 不 仅 包括 硬件 ,还 包括 由 存储 设备 、 计 算 设 备 、 网 络 
设备 .服务 需 .应 用 软件 .公共 访问 接口 和 客户 端 程序 等 多 个 部 分 组 成 的 复杂 系统 。 各 部 分 
以 存储 设备 为 核心 ,通过 应 用 软件 来 对 外 提供 数据 存储 和 业务 访问 功能 。 云 存储 系统 的 体 
系 结构 可 分 为 物理 资源 层 、 虚 拟 化 层 、 基 础 管理 层 、 应 用 接口 层 和 访问 层 , 如 图 2-1 所 示 。 

(OD 物理 资源 层 : 作为 云 存 储 最 基础 的 部 分 ,存储 设备 可 以 是 FC 光纤 通道 存储 设备 、 
NAS 和 SAN 等 IP 存储 设备 ,也 可 以 是 SCSI BK SAS 等 DAS 存储 设备 。 数 量 庞大 的 云 存 
储 设备 分 布 在 不 同 地 域 ,彼此 之 间 通 过 广域网 \ 互 联网 或 者 FC 光纤 通道 网 络 连接 。 所 有 物 
理 资 源 构成 一 个 集 存储 、 计 算 与 网 络 设 备 以 及 数据 库 等 于 一 体 的 物理 资源 仓库 。 

(2) 虚拟 化 层 : 对 存储 、 计 算 与 网 络 设备 进行 逻辑 虚拟 化 ,将 各 类 资源 划分 为 统一 规格 
的 存储 、 计 算 与 网 络 单元 ,构成 存储 、 计 算 、 网 络 以 及 数据 等 资源 池 , 以 分 配给 用 户 。 

(3) 基础 管理 层 : 基础 管理 层 是 云 存储 最 核心 的 部 分 ,通过 集群 系统 ,分布 式 文件 系统 
和 网 格 计 算 等 技术 ,实现 云 存 储 中 多 个 存储 设备 之 间 的 协同 工作 ,对 外 提供 良好 的 数据 访问 
性 能 。 

(4) 应 用 接口 层 : 包括 公用 API 接口 .应 用 软件 以 及 网 络 接 和 等。 不 同 的 云 存储 运营 单 
位 可 以 根据 实际 业务 类 型 ,开发 不 同 的 应 用 服务 接口 ,提供 不 同 的 应 用 服务 。 任 何 一 个 授权 用 
户 通 过 网 络 接 入 、 用 户 认证 和 权限 管理 接口 等 方式 登录 云 存储 系统 ,都 可 以 享受 云 存 储 服务 。 
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访问 层 


应 用 接口 层 


其 础 管理 屋 集群 系统 、 分 布 式 文件 系统 、 网 格 内 容 分 发 、P2P、 重 复数 据 删 除 、 数 据 
计算 压缩 


虚拟 化 层 存储 资源 池 计算 资源 池 网 络 资源 池 数据 资源 池 
物理 资源 层 存储 设备 计算 设备 网 络 设备 数据 库 


图 2-1 云 存储 系统 的 体系 结构 组 成 


(5) 访问 层 : 利用 云 存 储 服 务 提供 商 访 问 层 所 提供 的 不 同 访 问 类 型 和 访问 方式 ,用 户 
可 享受 诸如 个 人 空间 服务 、 运 营 商 空间 租赁 \ 企 事业 单位 或 SMB 的 数据 灾 备 与 远程 共享 ， 
以 及 视频 监控 、IPTV 和 视频 点 播 等 各 种 应 用 服务 。 


2.1.2 云 和 存储 系统 安全 体系 结构 


通常 , 云 存 储 系统 的 体系 结构 如 图 2-2 所 示 ,数据 拥有 者 将 数据 存放 到 云 服 务 提供 者 的 
存储 云 上 ,然后 通过 各 类 轻 量 型 设备 访问 云 上 的 数据 ; 也 可 以 通过 一 些 访问 控制 方式 ,将 数 
据 与 其 他 用 户 共 享 。 


数据 访问 控制 


— — 


2-2 云 存 储 系统 的 体系 结构 


HP 
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在 数据 拥有 者 或 用 户 与 云 存 储 服 务 送 交互 的 过 程 中 ,存在 以 下 安全 风险 。 

(1) 数据 拥有 者 将 数据 传输 到 云 存 储 服务 大 的 过 程 中 ,外 部 攻击 者 可 以 通过 网 络 禄 听 
的 方式 盗 取 数据 。 

(2) 数据 存储 到 云 服 务 希 上 以 后 ,外 部 攻击 者 可 以 通过 钓鱼 软件 .木马 和 无 授权 的 访问 
等 方式 来 破坏 服务 提供 者 对 用 户 数 据 和 程序 的 保护 ,从 而 实现 非法 访问 。 

(3) 由 于 数据 拥有 者 的 数据 存放 在 服务 提供 者 的 存储 介质 上 ,失去 了 对 数据 的 物理 控 
制 权 , 云 服 务 提 供 者 的 内 部 人 员 可 能 滥用 权限 ,对 数据 安全 造成 威胁 。 

(4) 数据 拥有 者 回 用 户 授权 数据 访问 时 ,面临 如 何 防范 恶意 用 户 以 及 保障 交互 过 程 安 
全 的 问题 。 

(5) 外 部 攻击 者 可 以 通过 观察 用 户 发 出 的 请 求 , 获 得 用 户 的 习惯 \ 目 的 等 隐私 信息 。 因 
此 ,从 数据 的 发 送 、 存 储 到 访问 的 整个 过 程 中 ,都 存在 内 外 部 的 安全 风险 。 

另外 ,在 云 存 储 系统 的 层次 模型 中 ,各 个 层次 都 存在 安全 威胁 。 在 物理 资源 层 , 云 服务 
提供 商 的 物理 设施 可 徘 吗 ? 当 灾 难 ( 停 电 、 地震. 水 灾 、 火灾 等 ) 发 生 造 成 物理 设备 损坏 时 ,用 
户 的 数据 是 否 可 用 ? 是 否 存 在 对 设备 的 攻击 ? 在 虚拟 化 层 , 虚 拟 化 的 环境 与 平台 安全 吗 ? 
对 于 虚拟 化 的 多 租户 及 平台 共享 ,是 否 有 对 应 的 安全 措施 ? 在 基础 管理 层 , 系 统 安 全 能 不 能 
得 到 保障 ? 有 安全 性 评价 标准 吗 ? 在 应 用 接口 层 , 云 提供 的 应 用 可 信 吧 ? 在 数据 访问 层 , 数 
据 的 安全 有 保证 吗 ? 云 服务 提供 商会 不 会 滥用 用 户 的 数据 ? 用 户 应 该 使 用 何 种 安全 保障 强 
度 的 云 服务 ? 

只 有 将 物理 环境 、 硬 件 设备 、 便 件 技术 、 软 件 技术 等 综合 起 来 ,才能 实现 完整 的 安全 性 。 
因此 , 自 底 层 到 顶层 ,存在 物理 安全 、 虚 拟 化 安全 、 数 据 安全 以 及 应 用 安全 。 从 信息 安全 的 角 
RRA ,在 传统 三 要 素 (CIA 三 元 组 ) 一 一 机 密 性 (Confidentiality) , 完整 性 (Integrality)、 可 用 性 
(Availability) 的 基础 上 ,作者 认为 有 必要 加 入 访问 控制 (Access Control) ,将 其 延伸 到 
CIAA。 这 4 个 方面 被 认为 是 保障 云 存储 安全 的 核心 技术 。 

具体 到 目前 对 云 存 储 安 全 的 研究 , 云 存储 系统 安全 体系 结构 如 图 2-3 所 示 。 

在 物理 资源 层 ,一 方面 要 保障 物理 环境 安全 ,将 云 中 心 建立 在 一 个 适宜 的 环境 中 ; A 
方面 也 要 保障 物理 设备 安全 ,有 电磁 防护 .门禁 系统 、 机 房 监 控 系 统 等 。 

在 虚拟 化 层 , 因 为 虚拟 化 使 原 有 信息 系统 的 边界 不 复 存 在 ,因此 虚拟 机 安全 便 成 为 云 存 
储 安全 的 关键 。 为 实现 虚拟 机 安全 监控 .虚拟 机 安全 迁移 虚拟 机 安全 隔离 以 及 虚拟 机 安全 
镜像 等 ,需要 适当 的 系统 隔离 技术 保障 多 租户 的 数据 与 应 用 安全 ,需要 安全 的 远程 管理 技 
术 ,需要 对 系统 进行 状态 监控 并 及 时 维护 升级 。 

基础 管理 层 是 云 存储 最 为 核心 的 部 分 ,也 是 最 复杂 的 部 分 。 基 础 管理 层 大 量 采 用 了 集 
群 管理 技术 和 分 布 式 存储 系统 的 成 熟 方 法 ,在 实现 良好 的 可 扩展 性 的 同时 ,也 满足 了 可 用 性 
及 性 能 的 需求 ,可 提供 数据 分 块 存储 、 建 立 数据 索引 、 数 据 加 密 、 密 钥 管 理 、 密 文 搜索 和 完整 
性 证 明 。 此 外 , 它 还 负责 重复 数据 删除 、 容 灾 和 备份 等 任务 。 容 灾 备 份 技 术 指 的 是 在 磁盘 故障 
或 者 天 灾 等 意外 和 灾难 发 生 的 时 候 , 能 够 通过 目 身 的 一 些 特殊 的 机 制 ,进行 故障 的 检测 与 恢 
i ,最 小 化 灾难 和 意外 融 来 的 影响 ,使 用 户 能 够 不 受 影响 地 照常 使 用 数据 服务 ,保证 云 存 储 
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网 络 存储 、 空 i 
访问 层 赁 、 在 线 文 件 编 
Bt. 在 线 网 络 游戏 


应 用 接口 层 


Hopes p 集群 系统 、 分 布 式 文件 系统 、 内 容 分 发 、P2P、 重 复数 据 删除 、 


虚拟 化 层 


物理 资源 层 


2-3 云 存 储 系统 安全 体系 结构 


数据 日 喘 的 安全 和 稳定 。 

云 存 储 应 用 安全 建立 在 身份 认证 和 对 资源 的 权限 控制 基础 上 。 在 应 用 接口 层 ,要 防止 
攻击 者 以 非法 手段 禄 取 用 户口 令 和 身份 信息 ,要 对 来 访 者 有 适当 的 权限 访问 控制 与 管理 机 
制 。 比 如 ,在 Web 服务 中 ,要 重点 关注 数据 传输 安全 、 喘 份 认 证 与 鉴别 .访问 控制 以 及 抵抗 
拒绝 服务 攻击 等 方面 。 

为 了 保障 数据 拥有 者 对 数据 的 控制 权 , 用 户 可 以 在 数据 访问 层 目 主 加 密 数 据 ,然后 通过 
应 用 接口 层 的 服务 接口 将 加 密 数 据 存储 到 云 服务 融 。 同 时 ,需要 采用 传统 的 网 络 安全 技术 
保障 传统 边界 安全 ,包括 防火 墙 与 病毒 防护 技术 等 。 因 为 传统 防火 墙 技术 无 法 有 效 对 抗 更 
隐 珊 的 攻击 行为 ,如 欺骗 攻击 和 木马 攻击 ,而 且 传 统 病毒 防护 软件 无 法 对 木马 、 邮 件 类 病毒 、 
蠕虫 进行 全 网 整体 的 防护 。 在 云 存储 的 多 租户 共享 环境 下 ,将 有 大 量 的 终端 用 户 接 入 ,如 何 
防范 不 安全 的 接 和 人 是 云 存 储 中 安全 接 人 的 重要 任务 。 

而 更 加 笼统 地 划分 , 云 存 储 的 安全 威胁 主要 包括 内 部 威胁 和 外 部 威胁 两 个 方面 。 其 中 
以 内 部 威胁 更 难 防范 ,主要 包括 远程 管理 风险 、 和 恶意 的 内 部 员工 、 操 作 失 误 \、 云 基础 框架 中 的 
软 人 硬件 错误 等 。 外 部 威胁 是 指 通过 云 服 务 需 与 用 户 之 间 的 交互 接口 ,利用 软 便 件 以 及 管理 
上 的 漏洞 对 系统 进行 人 侵 与 攻击 。 


2.2 数据 生命 周期 中 的 安全 风险 


用 户 将 其 数据 存放 到 云 存 储 服务 豆 , 从 数据 的 产生 数据 存 储 、 数 据 利 用 数据 共享 、 数 
据 迁 移 直 至 数据 销毁 ,就 是 数据 的 生命 周 期 。 

用 户 数 据 在 云 服 务 副 上 静态 存储 时 ,可 能 因为 容 灾 备份 ,数据 有 多 个 副本 存储 在 服务 毅 
上 。 数 据 被 利用 时 ,可 能 存在 于 内 存 、 网 络 或 磁盘 缓存 等 介质 中 。 在 数据 生命 周期 中 的 每 个 
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阶段 ,数据 安全 都 面临 着 不 同 的 安全 威胁 ,因此 需要 对 应 的 安全 机 制 来 抵御 。 

1. 数据 产生 

数据 产生 阶段 由 数据 拥有 者 生成 数据 ,但 还 未 存储 到 云 服 务 需 。 通 第 认为 这 个 阶段 的 
数据 是 安全 的 ,但 为 了 保障 后 续 数 据 安全 ,需要 对 数据 进行 一 些 处 理 , 比 如 对 数据 进行 加 密 、 
建立 索引 、 生 成 完整 性 验证 标签 .为 数据 添加 属性 (数据 类 型 .安全 级 别 等 ) 等 。 在 数据 产生 
阶段 ,用 户 必须 了 解 目 喘 数据 的 安全 属性 ,才能 根据 需要 设置 对 应 的 安全 策略 及 进行 必要 的 
预 处 理 。 

2. 数据 存储 

将 数据 存储 到 云 存储 服务 器 ,面临 以 下 安全 风险 。 

(1) 用 户 失 去 对 数据 的 物理 控制 权 , 数 据 存放 位 置 不 确定 ,与 哪些 用 户 共 享 物理 资源 不 
可 知 , 以 及 对 数据 的 隔离 机 制 也 知之 甚 少 。 

(2) 数据 存储 在 云 服 务 硕 上 ,有 内 部 人 员 威 胁 , 云 服务 大 可 能 被 病毒 破坏 、 被 木马 人 侵 ， 
因此 数据 存在 丢失 和 算 改 的 风险 。 

(3) 云 服务 器 可 能 遭受 自然 灾害 .战争 等 不 可 抗力 因素 的 破坏 ,对 用 户 数 据 造 成 不 可 挽 
回 的 损失 。 

因此 ,将 数据 保存 到 云 平 台 上 ,要 考虑 静态 数据 的 隐私 性 、 机 密 性 、 完 整 性 .可 用 性 与 可 
靠 性 等 。 目 前 保障 以 上 安全 性 的 机 制 有 数据 加 蜜 存储 、 建 立 密 文 索引 实现 密 文 搜索 、 生 成 可 
验证 标签 对 数据 实施 完整 性 验证 、 对 数据 进行 远程 容 灾 备份 等 。 因 为 云 存 储 下 大 量 的 用 户 
以 及 海量 的 数据 ,所 以 对 用 户 数据 的 加 密 一 般 采 用 对 称 密码 算法 。 

3. 数据 利用 

数据 利用 是 指 用 户 将 数据 存储 后 ,可 以 定期 或 不 定期 地 访问 数据 ,并 可 能 对 数据 进行 增 
加 、 删 除 或 修改 等 更 新 操作 ,也 可 以 对 数据 进行 检索 以 及 进行 完整 性 验证 等 。 在 数据 利用 阶 
段 ,存在 以 下 的 安全 风险 。 

(1) 非法 访问 风险 : 如 果 云 服务 提供 商 没 有 严格 的 访问 控制 与 授权 机 制 , 可 能 让 攻击 
者 有 机 会 非法 访问 、 自 改 或 破坏 用 户 的 数据 ,甚至 使 合法 用 户 不 能 正常 地 访问 其 数据 。 

(2) 数据 传输 安全 : 用 户 通 过 网 络 远 程 访 问 数 据 , 在 数据 传输 过 程 中 ,可 能 会 遭受 攻击 
者 拦截 或 算 改 数据 。 

(3) 服务 质量 (Quality of Service. QoS) WE: 用 户 使 用 云 数 据 时 ,会 对 数据 的 传输 性 
能 有 一 定 的 要 求 ,但 因为 用 户 是 通过 网 络 访问 数据 ,会 受到 网 络 环境 等 外 部 条 件 的 限制 ,而 
不 一 定 能 够 达到 用 户 期 待 的 服务 质量 ,满足 用 户 的 需求 。 

4. 数据 共享 

数据 共享 是 指 用 户 将 其 存储 在 云 服务 器 上 的 数据 与 第 三 方 共享 。 在 数据 共享 过 程 中 存 
在 较 多 的 安全 风险 。 除 了 以 上 网 络 安全 风险 外 ,重点 要 防范 数据 访问 控制 与 授权 风险 , 即 与 
第 三 方 共享 数据 时 可 能 造成 的 非法 访问 数据 的 风险 。 这 就 需要 数据 拥有 者 及 云 服 务 提供 商 
协同 提供 合理 的 访问 控制 与 授权 机 制 , 使 得 只 有 被 授权 的 第 三 方 可 以 访问 数据 。 
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5. 数据 迁移 

数据 迁移 是 指 将 很 少 使 用 或 不 使 用 的 数据 迁移 到 一 个 单独 的 存储 设备 (如 磁带 或 光盘 ) 
进行 长 期 保存 的 存档 过 程 。 在 数据 迁移 准备 阶段 ,要 对 竺 迁移 数据 的 属性 有 详细 的 了 解 , 包 
括 数据 的 存储 方式 .数据 量 .数据 的 时 间 蜂 度 等 。 在 数据 迁移 过 程 中 ,要 制定 详细 的 迁移 策 
略 。 在 数据 迁移 完成 后 ,还 要 对 数据 进行 校 验 , 数 据 校 验 的 结果 是 判断 数据 迁移 是 否 成 功 的 
重要 依据 。 对 数据 进行 校 验 的 内 容 包 括 数据 格式 .数据 完整 性 与 一 致 性 等 方面 。 

在 数据 迁移 过 程 中 要 注意 以 下 问题 。 

(OD 平滑 过 渡 : 无 论 是 同 构 数 据 迁 移 还 是 异 构 数 据 迁 移 , 要 考虑 迁移 过 程 中 ,用 户 仍然 
可 以 访问 数据 ,如 何 实现 不 同 格式 数据 服务 可 以 在 用 户 无 感知 的 情况 下 做 到 平滑 迁移 是 要 
注意 的 问题 。 

(2) 出 错 处 理 : 在 数据 迁移 过 程 中 发 生 错 误 要 怎么 处 理 是 迁移 过 程 中 要 注意 的 问题 ， 
要 求 在 迁移 准备 阶段 做 好 错误 预 判 ,并 在 实施 阶段 设计 错误 追踪 方案 及 相应 的 解决 方案 。 

(3) 数据 迁移 测试 : 要 保障 数据 迁移 完成 后 数据 的 正确 性 .完整 性 与 可 用 性 。 

在 数据 迁移 阶段 , 云 数据 除了 面临 和 数据 存储 阶段 类 似 的 安全 风险 外 ,还 面临 如 下 安全 
风险 。 

(1) 大 规模 数据 迁移 造成 数据 的 可 用 性 问题 : 当 迁 移 的 数据 量 非常 大 时 ,数据 迁移 过 
程 可 能 需要 花费 几 个 月 甚至 几 年 的 时 间 ,这样 长 时 间 的 迁移 过 程 ,随时 有 可 能 影响 数据 的 
使 用 。 

(2) 合 规 性 风险 : 某 些 特殊 数据 对 归档 使 用 的 存储 介质 以 及 时 间 期 限 有 一 些 特殊 规 
XE. ,而 云 服 务 提 供 商 不 一 定 能 满足 这 些 特殊 要 求 ,造成 数据 的 合 规 性 风险 。 

6. 数据 销毁 

对 于 自主 控制 的 存储 ,数据 销毁 很 容易 做 到 ,可 一 旦 将 数据 存储 到 云 上 后 ,数据 销毁 却 
成 为 一 件 非常 困难 的 事情 。 通 常 ,计算 机 删除 数据 时 ,并 没有 将 数据 从 计算 机 的 人 硬盘 上 真正 
地 删除 ,只 是 删除 了 文件 相应 的 索引 ,使 得 用 户 不 能 通过 文件 系统 访问 该 文件 。 而 对 硬盘 进 
行 格 式 化 操作 时 ,也 并 没有 将 磁盘 上 数据 删除 ,而 只 是 重新 创建 文件 系统 并 创建 新 的 索引 ， 
将 磁盘 的 扇 区 标记 为 未 使 用 过 。 因 此 ,攻击 者 仍然 可 以 在 获取 硬盘 后 利用 一 定 的 数据 恢复 
方式 来 还 原 被 删除 的 数据 。 

同时 ,因为 云 服务 提供 商 不 一 定 是 可 信 的 ,用 户 无 法 确信 云 服务 需 是 否 真正 地 删除 了 数 
据 。 因 此 ,对 于 用 户 的 敏感 数据 ,通常 需要 加 密 后 再 存储 到 云 服 务 器 上 ,可 以 避免 因为 云 服 
务 顺 不 可 信 带 来 的 数据 销毁 问题 。 对 于 云 服务 提供 商 ,为 了 完成 数据 销毁 ,可 以 采用 磁盘 探 
写 的 方式 来 删除 用 户 的 数据 。 


2.3 保障 云 存 储 安全 的 几 个 原则 


云 存储 安全 除了 以 上 从 技术 角度 提出 的 安全 体系 结构 ,提供 整套 的 保障 安全 的 技术 方 
案 , 还 需要 建立 安全 目标 验证 \、 安 全 服务 等 级 测评 相关 的 安全 标准 与 测评 体系 ,以 及 自 上 而 
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下 的 安全 监督 管理 制度 体系 。 在 文献 L1j 中 , 陈 驰 等 人 对 云 计算 安全 建设 原则 已 经 作出 总 
结 ,本 节 结 合 新 的 研究 工作 再 次 总 结 了 设计 安全 云 存 储 系 统 时 需要 遵循 的 一 些 安 全 原则 。 

d) 要 有 合理 的 安全 假设 。 最 好 的 安全 假设 是 除 自己 以 外 的 所 有 实体 都 是 不 可 信 的 ， 
因为 假设 云 存 储 服 务 器 是 不 可 信 的 ,所 以 数据 拥有 者 需要 对 数据 加 密 存 放 ,提取 数据 时 还 要 
进行 数据 完整 性 验证 。 此 外 ,在 系统 实现 时 的 密码 算法 可 由 用户 根据 数据 的 敏感 度 选择 相 
应 强度 的 加 密 算 法 。 

(2) 保障 整体 性 原则 。 正 如 “ 木 桶 原理 ”所 述 , 短 板 最 终 容易 成 为 众 拓 之 的 ,即使 其 他 部 
位 安全 强度 再 高 ,也 没有 意义 。 因 此 ,根据 云 存 储 系 统 安 全 体系 结构 ,制定 全 生命 周期 的 安 
全 方案 ,各 个 部 位 及 环节 都 需要 有 完备 的 安全 设计 。 

(3) 熟悉 安全 标准 与 法 规 , 保 障 数据 的 合 规 性 。 尽 可 能 选择 本 地 化 服务 ,要 考虑 云 服 务 
器 的 物理 位 置 ,最 好 是 在 可 以 控制 的 界限 内 ,比如 在 企业 内 部 、 在 国家 内 部 等 。 

(4) 对 选择 的 云 存 储 服务 提供 商 要 有 足够 的 了 解 ,包括 云 存储 服务 提供 商 的 信誉 、 服 务 
质量 、 服 务 器 的 可 用 性 与 可 靠 性 ,甚至 还 要 了 解 服务 器 的 具体 地 理 位 置 ,双方 的 服务 协议 尽 
可 能 具体 和 细 化 。 同 时 ,根据 数据 的 敏感 度 选择 云 存 储 服务 提供 商 及 安全 机 制 。 

(5) 对 于 非常 重要 的 数据 ,可 以 考虑 建立 混合 云 框架 ,结合 私有 云 和 公共 云 , 可 以 提供 
所 有 云 计算 的 优势 ,同时 对 敏感 数据 实现 重点 保护 。 也 可 以 结合 多 云 存 储 , 以 避免 单 服务 提 
供 商 可 能 造成 “厂商 锁定 ”。 

(6) CSA 建议 采用 深度 防御 策略 ,包括 在 所 有 托管 主机 上 应 用 多 因子 身份 认证 ,启用 基于 
主机 和 基于 网 络 的 入 侵 检测 系统 ,应 用 最 小 特权 、 网 络 分 段 概 念 ,实施 共享 资源 补丁 策略 等 。 

(7) 尽 可 能 做 长 远 的 考虑 。 虽 然 目 前 一 些 云 服务 提供 商 拥 有 较 好 的 利润 率 , 但 并 不 意 
味 着 将 来 也 一 直 如 此 。 因 此 ,业务 连续 性 和 灾难 恢复 也 是 用 户 需 要 考虑 的 问题 。 

另外 ,还 有 尽量 提供 多 重 安 全 保护 .技术 与 管理 并 重 等 。 从 技术 的 角度 ,将 数据 交 给 有 
专业 信息 安全 人 员 管 理 的 云 存 储 服 务 需 会 比 存储 于 本 地 更 安全 。 文 献 L2] 从 加 密 存 储 、 安 全 
审计 和 蜜 文 访 问 控制 3 个 方面 对 云 数 据 安 全 存储 的 最 新 研究 进展 分 别 进行 了 评述 。 关 于 云 
存储 安全 的 综述 文献 可 以 参考 文献 [3-9]。 


2.4 本草 小 结 


本 章 首 先 介绍 了 云 存储 系统 的 层次 模型 以 及 该 模型 下 的 云 存 储 系统 安全 体系 结构 ; PA 
后 对 数据 生命 周期 以 及 各 个 阶段 的 安全 风险 进行 分 析 ; 最 后 结合 系统 安全 体系 结构 及 生命 
周期 安全 风险 ,总 结 了 保 隐 云 存储 安全 的 几 个 原则 。 
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云 存储 虚拟 化 安全 


在 云 计 算 与 云 存 储 平台 上 ,资源 高 度 集中 ,多 租户 共享 物理 资源 ,并 且 租 户 可 部 署 应 用 
软件 ,导致 云 服务 提供 商 无 法 保证 自身 平台 的 安全 性 ,用 户 失 去 了 对 数据 的 物理 控制 权 , 平 
台 上 大 量 的 系统 软件 和 应 用 软件 带 来 严重 的 安全 隐患 。 

作为 云 平 台 的 支撑 技术 一 一 虚拟 化 技术 ,经 常 漏洞 百出 。 目 前 主流 的 虚拟 化 系统 ,如 
Xen, KVM, VMware 等 都 存在 很 多 安全 漏洞 ; 云 平台 上 租户 部 署 的 商业 操作 系统 与 应 用 软 
件 的 安全 漏洞 则 数 以 千 计 。 

虚拟 化 安全 在 云 存 储 系 统 中 至 关 重 要 。 本 章 首 先 介 绍 虚 拟 化 技术 及 分 类 ,从 虚拟 化 技 
术 带 来 的 安全 挑战 说 起 ,阐述 存在 的 攻击 方法 及 其 对 应 的 安全 机 制 ; 最 后 指出 仍然 有 待 研 
完 的 问题 和 未 来 的 发 展 方向 。 


3.1 云 存 储 虚 拟 化 技术 


最 早 的 虚拟 化 技术 可 以 追溯 到 20 世纪 60 年 代 的 IBM M44/44X 以 及 IBM 360/370 
RIEHL ,它们 最 初 是 用 来 解决 IBM 第 三 代 架 构 和 操作 系统 中 多 道 程序 的 弱点 。 近 几 
十 年 来 ,虚拟 化 技术 取得 了 飞速 的 发 展 ,已 经 在 服务 器 虚拟 化 、 桌 面 虚拟 化 、 应 用 虚拟 化 中 得 
到 了 广泛 的 应 用 ,可 以 支持 各 类 安全 计算 平台 、 内 核 调试 、 服 务 器 加 固 ”” 移动 平 
台中 以 及 多 操作 系统 “等 。 

通常 ,虚拟 化 服务 是 在 客户 操作 系统 和 底层 硬件 之 间 的 软件 层 中 实现 的 。 该 软件 层 接 
收 来 自 操作 系统 的 请 求 ,执行 相关 指令 ,并 且 将 结果 返回 给 操作 系统 。 这 一 层 通常 称 为 虚拟 
机 监视 器 (Virtual Machine Monitor,VMMD)0595 ,可 以 实现 各 项 任务 之 间 的 隔离 。 

虚拟 化 技术 还 可 以 用 于 系统 安全 防护 。 由 于 VMM 的 权限 高 于 客户 操作 系统 的 权限 ， 
因此 VMM 可 有 效 发 现 与 防御 客户 操作 系统 内 核 中 的 恶意 行为 。Overshadow55 ,InkTag U*. , 
TrustPath"? JJ & AppShield"* ^& ,都 是 在 x86 平台 上 使 用 虚拟 化 技术 保护 系统 安全 的 重 
要 工作 。 

本 曹 重 点 介绍 云 存 储 环境 下 的 虚拟 化 技术 ,本 节 将 对 云 存 储 虚 拟 化 技术 的 基本 概念 、 分 
类 以 及 虚拟 化 给 云 存储 带 来 的 安全 挑战 进行 分 析 与 介绍 。 
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3.1.1 虚拟 化 技术 概述 


云 计算 与 云 存 储 依赖 虚拟 化 技术 实现 各 类 资源 的 动态 分 配 、 灵 活 调 度 、 跨 域 共 享 , 从 而 
极 大 地 提高 资源 利用 效率 ,并 使 得 TT 资源 能 够 真正 成 为 公共 基础 设施 ,在 各 行 各 业 得 到 广 
iz MH. 

维基 百科 对 虚拟 化 的 定义 为 : ME UL AE AGT OL) PR VEU n UR it. PES. FF Tit vx d A 
内 存 等 进行 抽象 与 转换 后 ,提供 一 个 资源 的 统一 逻辑 视图 ,使 用 户 可 以 更 好 地 利用 这 些 资 
源 。 这 些 资 源 的 新 的 虚拟 视图 不 受 原 物 理 资 源 的 架设 方式 、 地 理 位 置 或 抵 层 资源 的 物理 配 
置 的 限制 。 

因此 ,可 以 说 虚拟 化 是 一 种 整合 或 逻辑 划分 计算 存储 以 及 网 络 资源 来 呈现 一 个 或 多 个 
操作 环境 的 技术 ,通过 对 硬件 和 软件 进行 整合 或 划分 ,实现 机 器 仿真 .模拟 .时 间 共 享 等 。 
通常 虚拟 化 将 服务 与 便 件 分 离 ,使 得 一 个 硬件 平台 中 可 以 运行 以 前 要 多 个 人 硬件 平台 才能 执 
行 的 任务 ,同时 每 个 任务 的 执行 环境 是 隔离 的 。 虚 拟 化 也 可 以 被 认为 是 一 个 软件 框架 ,在 一 
台 机 器 上 模拟 其 他 机 器 的 指令 。 

目前 广泛 使 用 的 虚拟 化 架构 主要 有 两 种 类 型 ,根据 是 否 需 要 修改 客户 操作 系统 ,分 为 全 
虚拟 化 (Full Virtualization) 和 半 虚 拟 化 (Para-Virtualization ) 。 全 虚拟 化 不 需要 对 客户 操 
作 系 统 进行 修改 ,具有 良好 的 透明 性 和 兼容 性 ,但 会 带 来 较 大 的 软件 复杂 度 和 性 能 开销 。 半 
虚拟 化 需要 修改 客户 操作 系统 ,因此 一 般 用 于 开源 操作 系统 ,可 以 实现 接近 物理 机 的 性 能 。 
两 种 虚拟 化 技术 的 基本 结构 如 图 3-1 所 示 。 


应 用 程序 应 用 程序 应 用 程序 应 用 程序 


客户 操作 系统 客户 操作 系统 客户 操作 系统 客户 操作 系统 


虚拟 硬件 虚拟 硬件 虚拟 硬件 虚拟 硬件 


N 
` 
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虚拟 机 监视 项 (VMMVHypervisor) 宿主 机 操作 系统 | | 虚拟 机 监视 项 (VMMD) 


硬件 (CPU 、 内 存 、 硬 盘 等 ) 硬件 (CPU ~ AF- HEAS) 
(a) 全 虚拟 化 (b) 半 虚 拟 化 
3-1 虚拟 化 平台 的 两 种 基本 结构 


在 两 种 基本 结构 中 ,虚拟 机 监视 器 (Virtual Machine Monitor, VMM) 1} E MHLE H fE 
序 (Hypervisor) 是 虚拟 化 的 核心 部 分 。VMM 是 一 种 位 于 物理 硬件 与 虚拟 机 之 间 的 特殊 操 
作 系 统 ,主要 用 于 物理 资源 的 抽象 与 分 配 、1/O 设备 的 模拟 以 及 虚拟 机 的 管理 与 通信 ,可 以 
提高 资源 利用 效率 ,实现 资源 的 动态 分 配 、 灵 活 调 度 与 跨 域 共享 等 。 早 在 1974 年 ,Popek 等 
人 5 就 提出 了 VMM 的 3 个 本 质 特征 。 

(1) VMM 提供 了 与 原 机 器 本 质 上 相同 的 程序 执行 环境 。 


IE 


(2) 运行 在 该 环境 中 的 程序 的 性 能 损失 很 小 。 

(3) VMM 拥有 对 系统 资源 的 完全 控制 。 

为 了 提高 性 能 ,只 有 特权 指令 需要 通过 VMM 来 执行 ,所 有 非特 权 指 令 都 直接 在 硬件 
上 执行 。 这 些 特权 指令 通 帝 是 访问 便 件 组 件 或 改变 系统 关键 数据 结构 的 指令 。 处 理 需 需要 
在 管理 模式 中 运行 ,从 而 能 够 执行 这 些 特权 指令 。 

在 全 虚拟 化 架构 中 ,VMM 直接 运行 在 物理 硬件 上 ,通过 提供 指令 集 和 设备 接口 来 提供 
对 上 层 虚 拟 机 的 支持 。 全 虚拟 化 技术 通常 需要 结合 二 进 制 翻译 ** 和 指令 模拟 "技术 
来 实现 。 大 多 数 运 行 在 客户 操作 系统 中 的 特权 指令 被 VMM 捕获 ,VMM 在 这 些 指令 执行 
前 捕获 并 模拟 这 些 指令 。 对 于 一 些 用 户 模 式 下 无 法 被 捕获 的 指令 ,将 通过 二 进 制 翻译 技术 
处 理 。 通 过 二 进 制 翻译 技术 ,小 的 指令 块 被 翻译 成 与 该 指令 块 语义 等 价 的 一 组 新 的 指令 。 

在 半 虚 拟 化 架构 中 ,VMM 作为 一 个 应 用 程序 运行 在 客户 操作 系统 上 ,利用 客户 操作 系 
统 的 功能 实现 硬件 资源 的 抽象 和 上 层 虚 拟 机 的 管理 。 半 虚拟 化 技术 需要 对 客户 操作 系统 进 
行 修改 ,特权 指令 被 蔡 换 为 一 个 虚拟 化 调用 (HypercallD) 来 跳 转 到 VMM 中 。 虚 拟 域 可 以 通 
过 Hypercall jp] VMM 申请 各 种 服务 ,如 MMU (Memory Management Unit, 内 存 管理 单 
元 ) 更 新 .1/O 处 理 、 对 虚拟 域 的 管理 等 。VMM 为 客户 操作 系统 提供 了 一 些 系统 服务 的 虚 
拟 化 调用 接口 ,包括 内 存 管理 \ 设 备 使 用 及 终端 管理 等 ,以 确保 全 部 的 特权 模式 活动 都 从 客 
户 操作 系统 转移 到 VMM m, 

硬件 辅助 虚拟 化 是 全 虚拟 化 的 硬件 实现 。 由 于 虚拟 化 技术 应 用 广泛 ,主流 硬件 制造 商 在 
硬件 层面 提供 了 虚拟 化 支持 ,例如 Intel 的 VTP” , AMD-V^? 和 ARM 的 VEC Virtualization 
Extension) "" 。 当 客户 操作 系统 执行 特权 操作 时 ,CPU 自动 切换 到 特权 模式 ; 完成 操作 后 ， 
VMM 通知 CPU 返回 客户 操作 系统 继续 执行 当前 任务 。 人 硬件 虚拟 化 已 被 广泛 应 用 于 服务 
做 平台 。 

硬件 辅助 虚拟 化 不 同 于 半 虚 拟 化 需要 对 操作 系统 进行 修改 ,同时 也 不 需要 二 进 制 翻译 
和 指令 模拟 技术 ,因此 比 全 虚拟 化 和 半 虚 拟 化 技术 效率 都 要 高 。 而 半 虚 拟 化 技术 通过 改变 
客户 操作 系统 的 代码 来 避免 调用 特权 指令 ,从 而 减少 了 二 进 制 翻 译 和 指令 模拟 带 来 的 动态 
开销 ,因此 通常 半 虚 拟 化 比 全 虚拟 化 速度 更 快 。 但 是 半 虚 拟 化 需要 维护 一 个 修改 过 的 客户 
操作 系统 ,因此 也 将 带 来 一 定 的 额外 开销 。 

在 虚拟 化 系统 中 ,有 一 个 特权 虚拟 域 Domain 0。 它 是 虚拟 机 的 控制 域 ,相当 于 所 有 
VMs 中 拥有 root 权限 的 管理 员 。Domain 0 在 所 有 其 他 虚拟 域 启 动 之 前 要 先 启 动 ,并且 所 
有 的 设备 都 会 被 分 配给 这 个 Domain 0, 再 由 Domain 0 管理 并 分 配给 其 他 的 虚拟 域 ,Domain 0 
自身 也 可 以 使 用 这 些 设备 。 其 他 虚拟 域 的 创建 ,启动 、 挂 起 等 操作 也 都 由 Domain 0 控制 。 此 
外 ,Domain 0 还 具有 直接 访问 人 硬件 的 权限 。Domain 0 是 其 他 虚拟 机 的 管理 者 和 控制 者 ,可 
以 构建 其 他 更 多 的 虚拟 域 ,并 管理 虚拟 设备 ; 它 还 能 执行 管理 任务 ,比如 虚拟 机 的 休眠 、 唤 
醒 和 迁移 等 。 

在 Domain 0 中 安装 了 硬件 的 原始 驱动 ,担任 着 为 Domain U 提供 便 件 服务 的 角色 ,如 
网 络 数据 通信 (DMA 传输 除外 ) 。Domain 0 在 接收 数据 包 后 ,利用 虚拟 网 桥 技 术 ,根据 虚拟 
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网 卡 地 址 将 数据 包 转 发 到 目标 虚拟 机 系统 中 。 因 此 ,拥有 Domian 0 的 控制 权限 就 控制 了 
上 层 所 有 虚拟 机 系统 ,这 也 致使 Domain 0 成 为 攻击 者 的 一 个 主要 目标 。 

Xen 是 由 英国 剑桥 大 学 计算 机 实验 室 开发 的 一 个 开放 源 代码 虚拟 机 监视 需 , 它 在 单个 
计算 机 上 能 够 运行 多 达 128 个 有 完全 功能 的 操作 系统 。Xen 把 策略 的 制定 与 实施 分 离 ,将 
策略 的 制定 ,也 就 是 确定 如 何 管理 的 相关 工作 交 给 Domain 0; 而 将 策略 的 实施 ,也 就 是 确 
定 管理 方案 之 后 的 具体 实施 , 交 给 Hypervisor 执行 。 在 Domain 0 中 可 以 设置 对 虚拟 机 的 
管理 参数 ,Hypervisor 按照 Domain 0 中 设置 的 参数 去 具体 地 配置 虚拟 机 。 

作为 云 计算 与 云 存储 平台 的 文 撑 技 术 ,虚拟 化 为 云 存 储 囊 来 极 大 的 优势 。 

CD 利用 虚拟 化 技术 , 云 存 储 资 源 以 服务 的 方式 提供 给 用 户 ,可 以 极 大 地 提高 资源 利用 
效率 ,从 而 降低 成 本 ,节约 能 源 消耗 。 

(2) 可 以 实现 资源 的 动态 分 配 与 灵活 调度 ,从 而 可 以 根据 实际 需要 实时 进行 配置 ,可 满 
足 不 断 变化 的 业务 需求 。 

(3) 可 以 利用 专业 的 安全 服务 提高 安全 性 。 个 人 用 户 很 难 有 专业 的 安全 知识 ,但 云 服 
务 提供 商 可 以 提供 专业 的 安全 解决 方案 。 

(4) 使 得 云 存 储 具 有 更 高 的 可 扩展 性 ,可 动态 调整 资源 粒度 ,并 动态 进行 扩展 。 

(5) 更 强 的 互 操作 性 , 云 存 储 可 以 实现 平台 无 关 性 ,也 可 以 满足 各 种 接口 和 协议 的 兼 
容 性 。 

(6) 云 服 务 提 供 商 具备 实现 容 灾 备份 的 条 件 , 可 以 改善 灾难 恢复 效率 。 


3.1.2 虚拟 化 技术 分 类 


按照 被 虚拟 资源 的 类 型 ,虚拟 化 技术 可 分 为 存储 虚拟 化 、 网 络 虚拟 化 、 服 务 右 虚拟 化 、 肝 
面 虚拟 化 和 应 用 虚拟 化 。 

1. 存储 虚拟 化 

存储 网 络 工 业 协 会 (Storage Networking Industry Association: SNIA) 9 f£ fifi He WEY 
定义 如 下 。 

(1) The act of abstracting, hiding or isolating the internal function of a storage (sub) 
system or service from applications,compute servers or general network resources for the 
purpose of enabling application and network independent management of storage or data. 
(通过 对 存储 ( 子 ) 系 统 或 存储 服务 的 内 部 功能 进行 抽象 .隐藏 或 隔离 ,使 存储 或 数据 的 管理 
与 上 应用、 服务器、 网 络 催 源 的 管理 分 离 , 从 而 实现 应 用 和 网 络 的 独立 管理 。) 

(2) The application of virtualization to storage services or devices for the purpose of 
aggregating, hiding complexity or adding new capabilities to lower level storage resources. 
Storage can be virtualized simultaneously in multiple layers of a system, for instance to 
create HSM-like systems. (对 存储 服务 或 设备 进行 虚拟 化 ,能 够 在 对 下 一 层 存 储 资 源 进行 
扩展 时 进行 资源 合并 、 降 低 实现 的 复杂 度 。 存 储 虚 拟 化 可 以 在 系统 的 多 个 层面 实现 ,比如 建 
立 类 似 于 分 级 存储 管理 (Hierarchical Storage Management, HSM) If] KZ.) 


324| 云 存储 安全 一 一 大 数据 分 析 与 计算 的 基石 


存储 虚拟 化 旨 在 将 具体 的 存储 设备 或 存储 系统 与 服务 大 操作 系统 分 离 ,通过 对 具体 
存储 设备 或 存储 系统 进行 抽象 ,形成 存储 资源 的 逻辑 视图 ,为 存储 用 户 提 供 统 一 的 虚拟 
存储 池 。 存 储 虚 拟 化 可 以 屏蔽 存储 设备 或 存储 系统 的 复杂 性 ,简化 管理 ,提高 资源 利用 
效率 ; 特别 对 于 异 构 的 存储 环境 ,可 以 显著 改善 资源 的 管理 成 本 , 回 用 户 提 供 透 明 的 存储 
访问 。 

存储 虚拟 化 包括 以 下 3 种 方式 。 

(1) 基于 主机 的 存储 虚拟 化 : 采用 基于 软件 的 方式 实现 资源 的 管理 。 由 于 不 需要 任 
何 额 外 硬件 ,实现 简单 ,设备 成 本 低 。 但 由 于 管理 软件 在 主机 上 运行 ,会 占用 主机 的 计算 
资源 ,扩展 性 相对 较 差 ; 同时 ,可 能 由 于 不 同 存储 厂商 软 刹 件 的 兼容 性 市 来 互 操作 性 转换 
天 让。 

(2) 基于 存储 设备 的 存储 虚拟 化 : 通过 设备 日 喘 的 功能 模块 实现 虚拟 化 。 对 于 用 户 来 
说 ,配置 与 管理 人 简单 ,用 户 也 可 以 与 存储 设备 提供 商 协调 管理 方法 。 但 由 于 不 同 存储 厂商 功 
能 模块 的 差异 ,对 于 异 构 的 网 络 存 储 环境 ,会 市 来 额外 的 管理 成 本 。 

(3) 基于 网 络 的 存储 虚拟 化 : 在 网 络 设备 上 实现 存储 虚拟 化 功能 。 该 方式 也 存在 异 构 
操作 系统 和 多 供应 商 存 储 环 境 之 间 的 互 操作 性 问题 。 

2. 网 络 虚拟 化 

网 络 虚 拟 化 是 指 对 网 络 设 备 进行 虚拟 化 , 即 对 传统 的 路 由 右 、 交 换 机 等 设备 进行 扩展 ， 
在 一 个 物理 网 络 上 模拟 出 多 个 相互 隔离 的 逻辑 网 络 , 使 得 不 同 用 户 使 用 独立 的 网 络 资源 时 
间 片 ,从 而 提高 网 络 资源 利用 效率 ,实现 弹性 的 网 络 。 

网 络 虚拟 化 采用 基于 软件 的 方式 ,从 物理 网 络 元 素 中 分 离 网 络 流 量 。 通 和 背包 括 虚 拟 局 
域 网 和 虚拟 专用 网 。 虚 拟 局 域 网 可 以 将 一 个 物理 局 域 网 划分 成 多 个 虚拟 局 域 网 ,也 可 以 将 
多 个 物理 局 域 网 的 节点 划分 到 一 个 虚拟 局 域 网 中 ,使 得 虚拟 局 域 网 中 的 通信 类 似 于 物理 局 
域 网 ,并 对 用 户 透 明 ; 虚拟 专用 网 对 网 络 连 接 进行 了 抽象 ,允许 远程 用 户 连 接 单 位 内 部 的 网 
络 ,感觉 就 像 在 单位 网 络 中 一 样 。 

网 络 虚拟 化 平台 不 仅 可 以 实现 物理 网 络 到 虚拟 网 络 的 "一 虚 一 ”映射 ,也 能 实现 物理 网 
络 到 虚拟 网 络 的 “多 虚 一 六 一 虚 多 ?上 映 射 。 此 处 的 "一 虚 多 ?是 指 单个 物理 交换 机 可 以 虚拟 映 
射 成 多 个 虚拟 租户 网 中 的 逻辑 交换 机 ,从 而 被 不 同 的 租户 共享 ;“ 多 虚 一 ?是 指 多 个 物理 交 
换 机 和 和 链 路 资源 被 虚拟 成 一 个 大 型 的 逻辑 交换 机 , 即 租户 眼中 的 一 个 交换 机 可 能 在 物理 上 
由 多 个 物理 交换 机 连接 而 成 。 

欧洲 电信 标准 组 织 (ETSI) 从 服务 提供 商 的 角度 还 提出 了 网 络 功 能 虚拟 化 (Network 
Functions Virtualization, NFV) ,一 种 软件 和 便 件 分 离 的 架构 ,利用 虚拟 化 技术 将 网 络 市 点 
的 功能 分 成 几 个 功能 模块 ,然后 以 软件 的 方式 实现 ,使 得 网 络 功能 不 青 局 限于 便 件 架构 。 文 
献 L32j] 对 网 络 功能 虚拟 化 技术 进行 了 综述 ,详细 分 析 并 比较 了 典型 的 解决 方案 ,总 结 了 它们 
的 优势 与 开销 。 
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3. 服务 器 虚拟 化 


服务 硕 虚 拟 化 是 指 将 虚拟 化 技术 应 用 在 服 


务 器 上 ,将 服务 器 物理 资源 抽象 成 逻辑 资源 ,让 | | 
用 户 不 再 受 限 于 物理 资源 。 服 务 器 虚拟 化 的 他 


辑 结 构 如 图 3-2 所 示 虚拟 机 虚拟 机 虚拟 机 
ZH f] 3- m 


服务 硕 虚 拟 化 主要 分 为 3 TRI “HE 
ee 
被 虚拟 成 多 台 服 务 器 ,即将 一 台 物 理 服 务 器 分 图 3-2 服务 器 虚拟 化 的 逻辑 结构 
制 成 多 个 相互 独立 、 互 不 干扰 的 虚拟 环境 ;“ 多 
虚 一 ”就 是 多 台独 立 的 物理 服务 需 被 虚拟 为 一 台 逻 辑 服务 硕 , 使 多 台 服 务 硕 相互 协作 ,处 理 
同一 个 业务 ;“ 多 虚 多 ” 则 是 将 多 台 物 理 服 务 需 虚拟 成 一 台 逻 辑 服务 硕 , 然 后 再 将 其 划分 为 
多 个 虚拟 环境 , 即 多 个 业务 在 多 人 台 虚 拟 服务 郑 上 运行 。 

常用 的 服务 器 虚拟 化 平台 包括 VMware 的 vSphere、 微 软 的 Hyper-V, SI Br X ^£ fr 
Xen,Qumranet ARI KVM 等 。 

4. 桌面 虚拟 化 

困 面 虚拟 化 是 指 将 计算 机 的 终端 系统 (也 称 为 果 面 ) 进 行 虚 拟 化 ,用 户 可 以 通过 任何 设 
备 ,在 任何 地 点 、 任 何 时 间 通 过 网 络 访问 属于 个 人 的 果 面 系统 。 

果 面 虚拟 化 可 以 实现 多 种 方式 接 入 , 文 持 个 性 化 果 面 、 文 持 多 虚拟 机 、 文 持 主 流 操作 
系统 、 文 持 网 络 存储 空间 的 动态 分 配 , 使 果 面 系统 的 灵活 性 、 安 全 性 、 可 控制 性 和 可 管理 
性 得 到 了 保障 。 但 从 虚拟 化 时 面 系统 的 整体 安全 角度 来 看 ,在 接 入 传输、 管理 与 服务 、 
数据 存储 和 用 户 等 各 个 方面 ,都 会 产生 安全 风险 ,忽略 任何 一 个 细节 都 会 导致 全 局 的 安 
全 问题 。 

5. 应 用 虚拟 化 

应 用 虚拟 化 是 指 将 应 用 程序 从 底层 操作 系统 分 离 出 来 , 文 持 虚 拟 时 面 与 应 用 软件 虚拟 
化 间 的 无 缝 集 成 。 应 用 虚拟 化 为 应 用 程序 提供 了 一 个 虚拟 的 运行 环境 ,把 应 用 对 底层 的 系 
统 和 便 件 的 依赖 抽象 出 来 ,可 以 解决 版 本 不 兼容 的 问题 。 

应 用 虚拟 化 把 应 用 程序 的 人 机 交互 逻辑 与 计算 逻辑 分 离开 来 。 在 用 户 访 问 一 个 虚拟 化 
后 的 应 用 时 ,用户 计 算 机 只 需要 把 人 机 交互 逻辑 传送 到 服务 需 端 ,服务 器 端 便 会 为 用 户 开 设 
独立 的 会 话 空间 ,应 用 程序 的 计算 逻辑 在 这 个 会 话 空 间 中 运行 ,然后 把 变化 后 的 人 机 交互 逻 
辑 传送 给 客户 端 ,并 且 在 客户 端 相应 设备 展示 出 来 ,从 而 使 用 户 获 得 如 同 运 行 本 地 应 用 程序 
一 样 的 访问 感受 ,因此 极 大 地 方便 了 应 用 程序 的 部 署 .更 新 和 维护 。 

应 用 虚拟 化 通常 采用 “ 沙 盒 ” 技 术 实 现 安全 性 , 它 在 计算 机 系统 内 部 构建 了 一 个 独立 的 
虚拟 空间 , 当 发 现 程序 的 可 疑 行为 时 让 程序 继续 运行 ,直至 确定 为 病毒 才 终 止 ,然后 执行 “ 回 
eR” OL ill ,将 病毒 的 痕迹 和 动作 抹 去 ,将 系统 恢复 到 正和 背 状 态 。 由 于 病毒 一 直 是 在 虚拟 空间 
运行 ,所 以 不 会 对 真实 的 计算 机 系统 产生 破坏 。 
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3.1.3 虚拟 化 市 来 的 安全 挑战 


虚拟 化 技术 可 以 极 大 地 提高 资源 利用 效率 .节约 社会 资源 与 能 源 , 这 与 当前 全 球 倡 导 的 节 
能 减 排 ` 绿 色 环 保 、 保 护 生 态 .节约 资源 .改善 环境 .构建 人 与 自然 和 谐 的 地 球 系 统 不 谋 而 合 。 

尽管 虚拟 化 技术 有 很 多 优势 ,但 是 也 带 来 了 很 多 的 安全 问题 。 因 为 云 存储 中 的 虚拟 化 
技术 是 建立 在 网 络 服务 之 上 ,因此 所 有 网 络 安全 问题 在 云 存 储 中 都 存在 。 本 章 主 要 讨论 虚 
拟 化 技术 本 身 带 来 的 安全 问题 。 虚 拟 化 技术 带 来 的 安全 挑战 总 结 如 下 。 

(1) 在 虚拟 化 环境 下 ,不 同 虚拟 主机 间 的 网 络 及 逻辑 边界 被 模糊 化 ,传统 互联 网 环境 下 
的 网 络 防火 墙 、 网 络 人 侵 检 测 防 护 技术 失去 了 作用 。 实 现 虚 拟 机 间 高 效 的 安全 隔离 是 一 大 
安全 挑战 。 

(2) 虚拟 化 环境 下 ,“ 一 虚 多 ”“ 多 虚 多 ”导致 攻击 者 可 以 利用 已 有 的 虚拟 主机 使 用 权限 ， 
对 同一 虚拟 化 平台 和 网 络 上 的 其 他 虚拟 主机 进行 非法 访问 、 嗅 探 和 攻击 等 。 实 现 虚拟 机 间 
高 效 的 认证 与 访问 控制 是 一 大 安全 挑战 。 

(3) 虚拟 化 平台 在 传统 的 “网 络 一 系统 一 应 用 ”的 架构 上 增加 了 虚拟 机 监视 器 (VMM) 
或 虚拟 机 管理 程序 (Hypervisor) ,从 而 增加 了 一 层 软 件 栈 , 其 软件 本 身 存在 的 安全 漏洞 以 及 
增加 的 攻击 点 ,会 导致 更 多 的 安全 风险 。 因 此 ,如 何 更 加 精确 、 有 效 地 配置 与 管理 VMM 或 
Hypervisor 的 特殊 权限 是 一 大 安全 挑战 。 

(4) 虚拟 化 平台 下 存在 的 安全 漏洞 及 网 络 人 侵 在 不 同 虚拟 机 之 间 容 易 扩 散 , 导 致 单 台 
虚拟 机 的 安全 问题 可 能 影响 整个 虚拟 化 平台 。 如 果 虚 拟 机 隔离 不 当 , 就 有 可 能 出 现 非法 访 
问 其 他 虚拟 机 或 窃听 虚拟 机 间 通 信 的 情况 。 如 何 有 效 限 制 各 类 攻击 的 扩散 及 最 小 化 影响 相 
邻 虚 拟 机 是 一 大 安全 挑战 。 

(5) 当 某 一 虚拟 存储 资源 被 一 个 虚拟 机 使 用 过 后 并 重新 分 配给 其 他 虚拟 机 时 ,新 的 虚 
拟 机 可 能 获取 前 一 虚拟 机 的 数据 ,从 而 导致 数据 泄露 风险 。 如 何 有 效 限 制 同 一 虚拟 资源 被 
重复 利用 时 带 来 的 安全 风险 是 一 大 安全 挑战 。 


3.2 针对 虚拟 化 的 安全 攻击 


2018 年 11 月 上 映 了 一 部 很 火爆 的 好 莱 坞 大 片 ,名 字 叫 作 《 毒 液 》VENOM) , 讲 的 是 一 
种 外 星 生 物 入 侵 人 体 的 故事 。 现 实 的 计算 机 网 络 中 ,也 有 毒液 病毒 攻击 的 存在 。2015 年 5 
月 ,一 个 名 为 “毒液 *《VENOM) 的 QEMU 漏洞 使 数 以 百 万 计 的 虚拟 机 处 于 网 络 攻 击 风险 之 
中 。VENOM 是 Virtualized Environment Neglected Operations Manipulation ,虚拟 环境 中 
被 忽视 的 业务 操作 的 缩写 ,这 是 一 种 能 够 影响 QEMU 软盘 控制 融 驱 动 程序 的 漏洞 。 
QEMU 是 一 个 指令 级 模拟 硕 的 和 目 由 软件 实现 ,被 广泛 用 于 各 大 GNU/Linux 发 行 版 ,包括 
Debian,Gentoo, SUSE, RedHat 和 CentOS 等 。 该 漏洞 可 以 从 受 感 染 的 非特 权 虚 拟 机 获得 
箔 主机 的 代码 执行 权限 ,进入 同一 答 主 机 上 的 其 他 虚拟 机 当中 ,获取 对 答 主 机 网 络 的 访问 权 
BS ,并 尝试 获得 证 书 等 敏感 信息 ,实现 虚拟 机 逃逸 攻击 。 攻 击 者 可 以 使 监控 程序 前 溃 , 并 能 
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够 获得 目标 机 器 以 及 其 上 运行 的 所 有 虚拟 机 的 控制 权 , 它 可 以 执行 任意 代码 ,从 而 威胁 到 全 
球 各 大 云 服 务 提供 商 的 数据 安全 。 

2015 年 8 月 ,安全 漏洞 CVE-2015-6815 通过 构造 恶意 的 数据 流 造成 虚拟 机 的 拒绝 服 
务 ,并 持续 占用 CPU 资源 ,从 而 破坏 宿主 机 及 虚拟 机 的 正常 服务 。2015 年 10 月 ,安全 漏洞 
“ 破 天 ” 利 用 PV 模式 运行 的 非特 权 虚 拟 机 实现 虚拟 机 逃逸 ,从 而 控制 Hypervisor, Domain 0 
以 及 宿主 机 上 的 虚拟 机 。2016 年 4 月 ,安全 漏洞 “传送 门 >(Dark Portal) 利 用 越界 读 写 内 存 
漏洞 ,可 以 在 笨 主 机 中 执行 恶意 命令 。 该 漏洞 存在 于 Xen A KVM 系统 的 QEMU 模块 中 
Hj VGA 显卡 组 件 ,攻击 者 可 以 利用 该 漏洞 在 虚拟 机 中 发 动 攻 击 ,控制 宿主 机 中 的 进程 执行 
恶意 代码 。 

攻击 者 经 稼 利用 虚拟 机 与 一 些 设备 的 依赖 关系 ,如 视频 适 配 需 、 软 盘 控 制 硕 、IDE 控制 
器 ,键盘 控制 器 和 网 络 适配器 等 ,来 获得 对 物理 机 的 访问 ,然后 利用 系统 中 存在 的 漏洞 实施 
Wi, UE VENOM 就 是 利用 软盘 控制 需 驱 动 程序 的 漏洞 实施 攻击 。 更 多 安全 漏洞 可 以 
参考 中 国 国 家 信息 安全 漏洞 共享 平台 公布 的 数据 。 本 节 将 对 虚拟 化 环境 下 的 攻击 方法 
进行 分 类 ,介绍 一 些 和 常用 的 虚拟 机 攻击 方法 。 


3.2.1 虚拟 机 攻击 分 类 


上 一 小 节 列 出 了 虚拟 化 技术 带 来 的 安全 挑战 ,具体 而 言 , 从 攻击 的 角度 ,可 以 将 攻击 方 
式 分 类 如 下 。 

1. 虚拟 机 跳跃 

虚拟 机 跳跃 (VM Hopping) 是 指 攻击 者 利用 一 台 虚 拟 机 通过 某 种 方式 获取 同一 个 
VMM 上 的 其 他 虚拟 机 的 访问 权限 。 例 如 ,在 同一 物理 机 上 的 虚拟 机 A 通过 获取 虚拟 机 B 
的 IP 地 址 或 宿主 机 的 控制 权 , 监 控 虚 拟 机 B 的 流量 ,进行 流量 攻击 等 操作 ,使 虚拟 机 B 离 
线 , 造 成 通信 中 断 , 停 止 服 务 。 虚 拟 机 的 物理 资源 被 多 租户 共享 是 出 现 这 种 攻击 方式 的 根源 
所 在 。 

2. Hew 

虚拟 机 逃逸 (VM Escape) 是 一 种 常见 的 虚拟 机 攻击 方式 。 正 常情 况 下 ,同一 虚拟 化 平 
台 下 的 客户 虚拟 机 之 间 不 能 互相 监视 或 影 啊 其 他 虚拟 机 及 其 进程 ,但 虚拟 化 漏洞 的 存在 或 
隔离 方式 的 不 正确 可 能 会 导致 隔离 失效 ,使 得 非特 权 虚 拟 机 获得 Hypervisor 的 访问 权限 ， 
并 入 侵 同 一 宿主 机 上 的 其 他 虚拟 机 ,这 种 攻击 方式 称 为 虚拟 机 逃逸 。 虚 拟 机 逃逸 与 虚拟 机 
跳跃 攻击 的 不 同 之 处 在 于 ,虚拟 机 逃逸 攻击 需要 获取 Hypervisor 的 访问 权限 甚至 是 入 侵 或 
破坏 Hypervisor。 

多 租户 技术 是 云 计算 与 云 存储 的 关键 技术 ,在 基于 多 租户 技术 系统 架构 中 ,多 个 租户 或 
用 户 的 数据 会 存放 在 同一 个 存储 介质 上 甚至 同一 数据 表 里 。 尽 管 云 服务 提供 商会 使 用 一 些 
数据 隔离 技术 (如 数据 标签 .访问 控制 ) 来 防止 对 混合 存储 数据 的 非 授 权 访问 ,但 攻击 者 利用 
漏洞 攻击 、 旁 路 攻击 等 方法 仍然 可 以 实现 非 授 权 访 问 汉 , 2009 年 3 月 ,Google Docs 就 发 
生 过 不 同 用 户 之 间 文 档 的 非 授权 交互 访问 。 
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3. 远程 管理 缺陷 

虚拟 化 平台 管理 人 员 通 党 使 用 远程 管理 平台 通过 Hypervisor 提供 的 接口 对 虚拟 机 进 
行 管理 ,如 VMware 的 vCenter, XenServer 的 XenCenter。 集 中 管理 降低 了 管理 复杂 度 , 但 
可 能 市 来 如 跨 站 脚本 攻击 、SQL 注入 等 危险 。 

内 部 人 员 可 以 通过 管理 工具 对 虚拟 机 进行 恶意 操作 ,例如 虚拟 机 转 存 (Dump) 快照 
(Snapshot) 和 迁移 (Live Migration) ,甚至 虚拟 镜像 备份 。 按 攻击 层次 可 以 将 攻击 对 象 分 为 
Hypervisor、 客 户 操作 系统 (GOS) 和 应 用 软件 ,其 中 Hypervisor 和 GOS 是 主要 的 攻击 目 
标 。 内 部 攻击 比 外 部 攻击 更 易 实 施 、 成 功率 更 大 ,而 且 不 易 被 发 现 ,因此 市 来 的 威胁 和 人 危害 
更 难 控制 。 

4. 拒绝 服务 攻击 

拒绝 服务 攻击 是 指 攻 击 者 利用 各 种 攻击 方法 造成 目标 机 不 能 正常 提供 服务 。 同 一 物理 
机 上 的 虚拟 机 共享 资源 ,如 果 攻 击 者 利用 一 台 虚 拟 机 获得 宿主 机 的 所 有 资源 ,导致 其 他 虚拟 
机 没有 资源 可 用 ,就 会 造成 虚拟 化 环境 下 的 拒绝 服务 攻击 。 

5. 虚拟 机 迁移 攻击 

虚拟 机 迁移 时 ,需要 先 迁 移 虚 拟 机 的 内 存 等 状态 信息 ,并 传输 虚拟 机 副本 到 新 的 物理 机 
上 恢复 运行 ,攻击 者 有 较 多 的 时 间 获 取 敏 感 信息 ,而且 右 被 迁移 的 虚拟 机 和 存在 安全 漏洞 , 迁 
移 到 的 物理 机 安全 性 又 不 高 , 则 很 容易 遭受 攻击 。 由 于 攻击 对 象 并 非 真 实 虚 拟 机 ,因此 较 难 
溯源 攻击 者 的 号 份 。 

6. 虚拟 机 监视 器 攻击 

在 虚拟 化 环境 中 ,虚拟 机 监视 如 是 核心 ,控制 者 整个 虚拟 化 平台 。 由 于 虚拟 机 监视 副 的 
权限 较 高 ,其 安全 问题 显得 尤其 重要 ,一 旦 被 攻破 ,将 造成 整个 虚拟 化 平台 的 骨 溃 。 

在 虚拟 化 软件 栈 中 ,VMM 具有 最 高 权限 和 较 小 的 可 信 计 算 基 ,从 而 能 为 虚拟 化 系统 提 
供 安 全 监控 和 保护 ,但 同时 也 引入 了 新 的 软件 层 ,市 来 新 的 安全 风险 。 尽 管 这 些 共 享 着 相同 
硬件 资源 的 虚拟 机 在 VMM 的 控制 下 彼此 隅 离 , 但 攻击 者 仍然 可 以 通过 流量 分 析 、 劳 路 攻 
击 等 攻击 手段 从 一 台 虚 拟 机 上 获取 其 他 虚拟 机 上 的 数据 。 


3.2.2 虚拟 机 攻击 方法 


以 上 是 关于 虚拟 机 攻击 方式 的 分 类 ,但 具体 到 攻击 方法 ,主要 包括 以 下 一 些 攻 击 
Be. 

1. 窃取 服务 攻击 

公共 云 计 算 或 云 存储 环境 一 般 采 用 多 种 弹性 计 费 模式 ,通常 根据 CPU .虚拟 机 的 运行 
时 间 ,存储 空间 的 大 小 ,网 络 流量 等 进行 费用 计算 。 而 这 种 计 费 模式 的 周期 性 采样 与 低 精 度 
的 时 钟 调度 策略 使 得 攻击 者 可 以 利用 虚拟 层 调度 机 制 的 漏洞 ,使 系统 管理 程序 错误 地 检测 
CPU 虚拟 机 的 使 用 时 间 ,实现 究 取 服务 攻击 (Theft-of-Service Attack). $ XM E) He HA PL i] 
度 机 制 没有 对 调度 的 正确 性 进行 检查 ,使 得 攻击 者 可 以 以 隐蔽 的 方式 占用 他 人 的 云 服务 
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2012 年 ,Varadarajan 等 人 5255 提出 的 资源 释放 型 攻击 (Resource-Freeing Attack, RFA) 
能 够 将 合法 用 户 的 虚拟 机 资源 非法 转移 到 攻击 者 的 虚拟 机 ,从 而 达到 与 锚 取 服务 攻击 类 似 
的 攻击 效果 。 目 前 还 没有 可 以 完全 避免 这 类 攻击 的 可 行 方案 。 在 RFA 攻击 中 ,攻击 者 通 
过 耗 尽 目标 虚拟 机 的 某 些 关键 资源 ,使 目标 虚拟 机 终止 正在 进行 的 服务 并 释放 已 占用 的 资 
DR ,攻击 者 利用 新 释放 的 资源 来 改善 日 喘 的 性 能 。 他 们 在 Amazon EC2 平台 上 的 实验 结果 
表明 ,攻击 者 侍 助 RFA 攻击 可 以 获得 13% 的 性 能 提升 。 

Gruschka 和 Jensen?! 利用 监视 机 制 来 对 比分 析 攻 击 者 与 合法 实例 之 间 的 差异 以 识别 
窃取 服务 攻击 ,从 而 保护 虚拟 机 安全 。Zhou SH A 则 通过 修改 调度 机 制 来 防御 此 类 攻击 ， 
他 们 提出 的 方法 有 效 地 兼顾 了 计算 效率 .公平 性 与 IO 啊 应 能 力 。 男 外 一 种 防御 此 类 攻击 
的 方法 是 实施 虚拟 机 最 小 化 策略 ,包括 对 可 信 计 算 基 -和 虚拟 机 软件 - 汪 的 最 小 化 ,可 以 减 
少 受 攻击 面 同 时 保护 用 户 隐私 。 这 些 方法 没有 检测 调度 的 正确 性 ,或 者 是 检测 的 准确 性 比 
BK ,都 无 法 有 效 抵御 REA 攻击 。 

2. 恶意 代码 注入 攻击 

当前 的 虚拟 机 系统 通常 使 用 远程 管理 平台 通过 Hypervisor 提供 的 接口 对 虚拟 机 进行 
管理 ,那么 攻击 者 就 可 以 利用 恶意 实例 代替 系统 服务 实例 处 理 正常 的 服务 请 求 , 从 而 获得 特 
权 访 问 能 力 ,实施 恶意 代码 注入 攻击 (Malware Injection Attack)。 对 于 一 个 基于 HTTP/ 
HTTPs 的 远程 管理 平台 ,攻击 者 就 可 以 利用 HTTP 的 漏洞 来 进行 恶意 代码 的 攻击 。 例 如 ， 
Xen 的 XenAPI HTTP 接口 就 存在 跨 站 脚本 攻击 (Cross-Site Scripting, XSS) Wii ili ,攻击 者 
可 以 通过 浏览 硕 执 行 恶意 代码 脚本 。 这 些 恶 意 代 码 可 以 泄露 证 书信 息 和 用 户 数据 ,导致 虚 
拟 机 异常 。 

与 传统 Web 应 用 环境 不 同 , 云 计算 环境 的 虚拟 化 特征 加 剧 了 恶意 代码 注入 攻击 的 安全 
威胁 。 云 端的 服务 迁移 、 虚 拟 机 共存 等 操作 使 得 恶意 代码 的 检测 工作 异常 困难 ,目前 仍然 缺 
少 对 云 服 务实 例 完整 性 的 有 效 检 查 方法 。 

现 有 防御 恶意 代码 注入 攻击 的 关键 是 对 包含 恶意 实例 的 计算 节点 的 检测 。Liu 等 人 “~ 
针对 PECPortable Executable, 可 移植 的 可 执行 文件 ) 文 件 格式 设计 了 可 追溯 的 检测 方案 ， 
在 Hadoop 平台 上 实验 检测 了 恶意 实例 所 在 的 主机 。 他 们 的 方案 具有 较 高 的 检测 率 和 较 低 
的 误 报 率 , 但 该 方案 的 检测 开销 比较 大 ,而 且 在 检测 过 程 中 存在 泄露 隐私 的 风险 。Jarabek 
等 人 -入 提出 一 种 轻 量 级 云 移 动 终端 反 恶 意 软件 系统 ,可 以 改善 移动 端 恶 意 代码 的 检测 效 
X, Wei Ak A Bl — ah XE T i E A RAR A HL (Deterministic Finite state Automaton, 
DFA) 的 评估 技术 来 检测 加 密 文 件 的 内 容 真 实 性 ,同时 用 于 恶意 代码 扫描 。 这 些 方法 没有 
检查 实例 的 完整 性 ,或 者 检测 的 开销 很 大 ,可 检测 的 恶意 代码 种 类 也 比较 有 限 。 

3. 交 义 虚拟 机 边 信 道 攻击 

虚拟 机 之 间 利 用 共同 访问 的 资源 来 实施 恶意 的 攻击 , 称 为 交叉 虚拟 机 边 信 道 攻 击 
(Cross VM Side Channels Attack) 。 交 义 虚 拟 机 边 信 道 攻 击 要 求 攻 击 者 与 目标 虚拟 机 使 用 
相同 的 物理 机 ,或 者 在 地 理 位置 上 接近 ,因为 在 相同 的 物理 机 上 执行 一 些 任 务 ,或 者 能 够 接 
近 物 理 机 ,使 得 攻击 者 有 机 会 获取 目标 虚拟 机 的 行为 ,得 到 一 些 可 用 于 攻击 的 信息 。 比 如 ， 
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攻击 者 可 以 借助 恶意 虚拟 机 访问 共享 便 件 和 缓存 ,然后 执行 预定 的 安全 攻击 ,如 计时 边 信 道 
攻击 “ 、 能 量 消耗 边 信 道 攻击 “”、 高 速 隐 项 信道 攻击 “等 ,最 终 导 致 目标 虚拟 机 的 用 户 
数据 泄露 。 因 为 攻击 者 拥有 使 用 物理 机 的 权限 ,因此 此 类 攻击 一 般 难 以 留 下 痕迹 或 引发 警 
FIR ,能够 很 好 地 躲避 检测 。 

边 信道 攻击 可 以 分 为 3 种 方式 : 基于 时 间 驱 动 (Time Driven) "基于 轨迹 驱动 (Trace 
Driven) ^ ^J ANSEF V7 ln] HK BC Access Driven)?! 。 基 于 时 间 驱 动 的 攻击 是 攻击 者 重复 地 
检测 被 攻击 者 的 加 蜜 操作 所 使 用 的 时 间 ,然后 通过 差分 分 析 等 技术 推断 出 密 钥 等 信息 。 基 
于 轨迹 驱动 的 攻击 通过 持续 地 对 设备 的 电能 损耗 ,电磁 发 射 等 情况 进行 监控 ,获取 到 其 敏感 
信息 ,但 是 这 类 边 信道 攻击 需要 攻击 者 能 够 物理 接近 攻击 目标 。 基 于 访问 驱动 的 攻击 是 攻 
击 者 在 执行 加 密 操作 的 系统 中 运行 一 个 应 用 ,这 个 应 用 用 于 监控 共享 Cache 的 使 用 情况 ,从 
而 获取 密 钥 信息 。 基 于 访问 驱动 的 攻击 的 优势 是 不 需要 攻击 者 得 到 受害 者 精确 的 时 间 信 
息 。 基 于 Cache 的 边 信道 攻击 不 需要 获取 Hypervisor 等 特权 ,也 不 需要 利用 系统 漏洞 ,只 
需 通 过 对 时 间 损 耗 、 电 源 损耗 以 及 电磁 辐射 等 特性 的 监测 和 统计 ,就 可 以 获取 到 其 他 客户 虚 
拟 机 的 数据 。 

Aviram 等 人 提出 的 计时 边 信道 攻击 通过 测量 不 同 计算 任务 的 执行 时 间 , 可 以 成 功 
获取 用 户 与 服务 器 的 身份 信息 。Hlavacs 等 人 提出 的 能 量 消耗 边 信道 攻击 “利用 能 量 消耗 
日 志 开 展 攻击 ,可 以 帮助 攻击 者 快速 识别 目标 虚拟 机 系统 管理 程序 的 类 型 。2012 年 ,Wu 等 
AUS fe We Le x86 系统 中 基于 Cache 的 边 信 道 攻击 实现 了 高 速 隐 项 信道 攻击 ,使 得 攻击 者 
能 够 在 数秒 或 数 分 钟 内 从 当前 流行 的 加 密 方法 (RSA、AES 和 DES) 中 获取 到 受害 者 的 密 钥 
信息 。2015 年 ,Liu 等 人 -包围 绕 最 后 一 级 缓存 (Last-Level Cache,LLC) 提 出 了 一 种 新 型 隐 
向 信 道 攻击 , 它 无 需 依 赖 共 享 内 存 以 及 操作 系统 或 虚拟 机 系统 管理 程序 的 漏洞 ,就 可 以 达到 
较 高 的 攻击 成 功率 。Inci 等 人 "* 则 是 通过 LLC 来 检测 主机 托管 ,在 Amazon EC2 平台 上 
完整 恢复 了 2048 比特 的 RSA 私 钥 。 

现 阶段 针对 交叉 虚拟 机 边 信道 攻击 的 典型 防御 策略 有 密 钥 划分 机 制 ” 和 最 小 运行 时 
间 担 保 机 制 “” 。 密 钥 划 分 机 制 将 用 户 密 钥 划 分 为 随机 份额 ,并 以 周期 性 更 新 的 方式 将 各 个 
密 钥 份额 存储 于 不 同 的 虚拟 机 ,有 效 防 范 利用 交叉 虚拟 机 边 信 道 攻 击 锚 取 加 密 密 钥 的 攻击 
行为 。 最 小 运行 时 间 担 保 机 制 优化 虚拟 机 调度 机 制 以 降低 缓存 共享 的 安全 风险 ,规定 在 最 
小 运行 时 间 限 制 内 不 能 预先 占用 CPU 资源 。 

4. 定向 共享 内 存 攻击 

定 问 共享 内 存 攻击 (Targeted Shared Memory) 以 物理 机 或 虚拟 机 的 共享 内 存 或 缓存 为 
攻击 目标 ,可 以 造成 用 户 数据 泄露 或 云 服 务 需 信息 泄露 ; 也 可 以 利用 他 进行 其 他 类 型 的 攻 
击 , 比 如 可 以 进行 恶意 代码 注入 攻击 与 边 信道 攻击 。 

2011 年 ,Rocha 和 Correia 提出 一 个 结合 内 部 攻击 访问 虚拟 机 的 内 存 转 储 数据 的 攻 
击 方案 ,可 以 导致 系统 当前 运行 状态 与 用 户 隐私 信息 的 泄露 。Molina 等 人 ' 引 提出 一 个 可 以 
解决 内 存 耗 尽 故 障 攻击 的 方案 。 目 前 抵抗 此 类 攻击 的 方法 是 根据 日 志文 件 来 监控 内 存 。 与 
直接 监控 内 核 例 程 的 方法 相 比 ,这 种 检测 方法 的 检测 效果 不 是 很 好 ,而 且 会 干扰 对 共享 内 存 
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的 正常 访问 。 

5. 虚拟 机 回 滚 攻击 

虚拟 机 回 滚 攻 击 (VM Rollback Attack) 是 指 通过 非法 恢复 虚拟 机 状态 快照 ,使 系统 回 
滚 到 之 前 的 状态 而 带 来 的 安全 攻击 , 它 可 能 导致 用 户 数据 泄露 ,破坏 云 基础 设施 ,并 且 可 以 
隐藏 攻击 痕迹 。 

在 云 计 算 与 云 存储 的 虚拟 化 环境 中 ,管理 程序 可 能 由 于 系统 维护 的 原因 , 挂 起 虚拟 机 并 
保存 系统 状态 快照 。 而 且 ,VMM 提供 了 备份 .快照 和 还 原 的 功能 ,如 果 系 统 发 生 故 障 , 可 以 
通过 快照 进行 数据 恢复 与 还 原 , 从 而 保障 系统 的 正常 运行 。 但 是 ,这 些 管理 和 可 靠 性 保障 机 
制 却 带 来 了 一 系列 的 安全 隐患 。 首 先 ,一 些 安全 协议 是 依赖 于 线性 时 间 的 ,重新 访问 以 前 的 
系统 状态 会 违反 这 些 协议 ,可 能 导致 虚拟 机 受到 新 的 攻击 ; 其 次 ,进行 系统 还 原 后 ,之 前 的 
系统 漏洞 又 再 次 全 部 出 现 , 而 且 重 新 激活 之 前 被 封锁 的 账号 和 密码 ,导致 很 多 的 安全 风险 。 

2012 年 ,Szefer 等 人 -提出 禁用 挂 起 恢复 功能 ,从 而 抵御 虚拟 机 回 滚 攻击 。Antunes 
EA A Xia 等 人 "5 提出 利用 虚拟 机 审计 日 志和 状态 快照 的 哈 希 值 作为 合法 性 的 判断 条 
件 ,而 无 需 禁 用 系统 管理 程序 的 基本 功能 。 但 是 ,该 方案 依赖 于 用 户 的 交互 ,需要 终端 用 户 
的 参与 及 协调 ,从 而 降低 了 灵活 性 ,同时 也 干扰 管理 程序 功能 。 

6. 基于 虚拟 机 的 Rootkit 攻击 

Rootkit 的 概念 最 早出 现在 UNIX 中 ,是 指 一 些 收集 工具 ,能 够 获得 管理 员 级 别 的 计算 
机 或 网 络 访问 权限 。 

攻击 者 利用 Rootkit 隐藏 自己 的 踪迹 ,通过 保留 root 访问 权限 ,在 虚拟 机 系统 中 留 下 后 
门 ,这 种 攻击 就 称 为 基于 虚拟 机 的 Rootkit 攻击 (Virtual Machine based Rootkit, VMBR) 59 , 
VMBR 攻击 会 在 VMM 启动 之 前 将 程序 代码 写 和 人 内 存 并 运行 ,一 旦 攻击 者 得 件 , 那 么 所 有 
虚拟 机 系统 都 将 在 攻击 者 的 控制 范围 之 内 。VMBR 攻击 属于 虚拟 机 逃逸 "的 攻击 类 别 ， 
虚拟 机 通过 应 用 程序 , 绕 过 VMM 的 监控 而 直接 访问 Domain 0, 从 而 获取 Domain 0 的 特 
权 , 而 一 旦 获取 到 了 Domain 0 的 控制 权 后 ,就 可 以 控制 所 有 虚拟 机 。VMBR 攻击 是 利用 所 
发 现 的 漏洞 来 实施 的 ,如 VMware Workstation 6 中 的 安全 漏洞 CVE-2007-4496 5? ,通过 用 
户 授权 进行 内 存 访 问 并 运行 恶意 代码 。 同 时 ,被 控制 虚拟 机 还 可 以 利用 共享 内 存 通信 方式 
对 VMM 进行 病毒 分 析 。 

在 虚拟 机 中 ,如果 Hypervisor 被 Rootkit 控制 ,Rootkit 就 可 以 得 到 整个 物理 机 的 控制 
AL. Rootkit 的 本 质 不 在 于 获取 更 多 的 权限 ,而 是 在 一 个 已 经 被 攻击 的 系统 上 隐藏 攻击 者 的 
存在 。 它 通过 把 恶意 程序 放 在 虚拟 机 上 ,可 以 做 到 对 目标 机 的 完全 监控 ,同时 目标 机 完全 不 
会 知情 。 

VMBR 使 用 一 个 独立 的 服务 执行 各 种 攻击 。 它 对 目标 系统 的 攻击 主要 分 为 3 种 : 一 种 
不 需要 和 目标 系统 交互 ,例如 垃圾 电子 邮件 的 发 送 、DDoS 攻击 、 网 络 钓鱼 等 ; 第 二 种 恶意 服 
务 需要 监视 目标 系统 的 数据 和 事件 ,通过 修改 VMM 的 设备 模拟 软件 就 能 记录 下 所 有 系统 
级 的 数据 ,比如 用 户 的 操作 、 网 络 流量 等 ,整个 过 程 不 需要 修改 客户 操作 系统 ,所 以 目标 机 完 
全 不 知情 ; 第 三 种 利用 虚拟 机 欺骗 有 管理 员 权 限 的 用 户 执 行 安装 程序 来 实现 ,通过 写 好 的 
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后 门 和 病毒 程序 让 用 户 执 行 来 控制 其 他 虚拟 机 。 

微软 公司 和 密歇根 大 学 的 研究 人 员 实 现 了 一 种 VMBR 攻击 方法 SubVirt ^9 ,, SubVirt 
依赖 商用 的 虚拟 化 软件 ,如 VMWare 或 Virtual PC ,来 构建 虚拟 化 环境 。 在 SubVirt 注入 
之 前 ,目标 操作 系统 直接 运行 在 硬件 之 上 ; 注入 之 后 , 则 目标 操作 系统 上 移 , 建 立 在 虚拟 化 
软件 VMM 上 的 一 个 虚拟 机 上 。VMBR 的 组 件 由 虚拟 化 软件 VMM .主机 操作 系统 以 及 其 
上 运行 的 恶意 软件 组 成 。 恶 意 程序 运行 在 VMM 或 主机 操作 系统 中 ,与 目标 操作 系统 隔离 
开 , 从 而 使 得 目标 操作 系统 中 的 入 侵 检测 软件 无 法 发 现 和 修改 该 恶意 程序 。 同 时 ,VMM 能 
够 掌握 目标 操作 系统 上 的 所 有 事件 和 状态 , 当 VMBR 修改 这 些 事件 和 状态 时 ,由 于 它 完 全 
控制 了 面向 目标 操作 系统 和 应 用 程序 的 虚拟 人 硬件 ,目标 操作 系统 将 无 法 发 现 这 些 修 改 。 

检测 及 防御 VMBR 攻击 的 方法 如 下 。 

(1) 计时 的 方法 ,通过 检测 一 个 指令 的 执行 时 间 , 判 断 该 指令 是 否 存 在 YMBR 攻击 。 
Rhee 5& AC! 提出 利用 预 设 的 安全 策略 ,通过 监视 内 核 的 内 存 访问 来 防御 动态 数据 内 核 
VMBR 攻击 ; Riley 等 人 "提出 了 通过 内 存 影子 来 检测 内 核 VMBR 攻击 。 

(2) 通过 可 信和 模块 (Trusted Platform Module,TPM) 来 保护 VMM” 。 通 过 启动 过 
程 的 完整 监测 ,可 以 防止 Rootkit Wham A. TPM 的 设计 不 但 可 以 抵御 VMBR 的 攻击 ， 
也 可 以 防御 其 他 破坏 VMM 完整 性 的 攻击 。 

7. DMA 攻击 

在 虚拟 机 中 有 一 种 数据 传输 不 受 VMM 控制 , 它 就 是 DMA(Direct Memory Access. H 
接 内 存 访问 ) 传 输 。DMA 攻击 就 是 在 DMA 传输 过 程 中 将 恶意 代码 输入 到 目标 机 ,从 而 实 
现 攻击 的 。 

在 DMA 传输 时 ,虚拟 机 通过 Domain 0 与 硬件 建立 DMA 连接 ,Domain 0 将 数据 控制 
权 交 由 虚拟 机 进行 数据 传输 。 在 数据 传输 的 过 程 中 ,数据 将 直接 从 网 卡 传输 到 目的 虚拟 机 
中 ,能够 极 大 地 提高 大 数据 量 的 传输 效率 。 但 是 ,这 种 数据 传输 方式 为 攻击 者 攻击 系统 提供 
了 捷径 ,攻击 者 可 以 利用 DMA 传输 将 恶意 代码 或 病毒 文件 等 传人 没有 安全 防范 的 目标 机 
中 ,实现 其 攻击 目标 。 

除了 上 述 的 虚拟 机 攻击 方法 ,虚拟 机 中 的 隐蔽 通道 也 是 较 难 解决 的 安全 问题 之 一 。 虚 
拟 机 中 的 隐蔽 通道 通常 是 系统 和 用 户 不 知道 的 传输 通道 ,比如 基于 CPU 负载 的 隐蔽 通 
i) ,攻击 者 利用 CPU 负载 传输 私密 数据 流 , 既 能 很 隐蔽 地 传输 数据 ,又 能 成 功 地 避免 检 
illl ,Salaun ”研究 了 虚拟 机 Xen 上 可 能 存在 的 隐蔽 通道 ,从 XenStore AY BL ill FEE PDL OK 
动 加载 .数据 传输 等 方面 分 析 了 可 能 存在 的 隐蔽 通道 。 隐 和 蔽 通道 的 建立 和 数据 传输 通常 需 
要 “同伙 的 存在 ”, 即 接收 者 和 发 送 者 的 存在 。Cheng “ AU" 48 fi 3x — IE. Tk "n Bs fi 
(Chinese Wall) 安 全 模型 上 进行 了 改进 ,利用 限制 冲突 集 数 据 传 输 来 防御 隐蔽 通道 。 

恶意 代码 注入 攻击 、 交 又 虚拟 机 边 信 道 攻击 、 定 向 共享 内 存 攻 击 和 虚拟 机 回 深 攻 击 都 会 
造成 敏感 信息 泄露 或 未 授权 访问 私有 云 资 源 。 以 数据 泄露 为 例 , 攻 击 者 可 以 通过 边 信道 和 
虚拟 机 逃逸 等 攻击 方式 禄 取 其 他 虚拟 机 的 数据 。 在 此 需要 强调 的 是 ,这 些 安 全 威胁 并 不 是 
独立 存在 的 ,它们 可 以 相互 依托 并 相互 转化 。 据 文献 L344j] 统 计 ,虚拟 化 平台 的 漏洞 主要 是 权 
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限 许 可 和 访问 控制 .信息 泄露 以 及 缓冲 区 液 出 ,而 传统 环境 下 的 安全 漏洞 主要 是 拒绝 服务 、 
跨 站 脚本 与 SQL 注入 漏洞 。 


3.3 虚拟 机 安全 机 制 


针对 以 上 攻击 方法 ,虚拟 机 必须 采取 相应 的 安全 机 制 。 本 节 重 点 介绍 虚拟 机 访问 控制 
和 虚拟 机 阳 离 这 两 种 最 第 见 的 安全 机 制 。 


3.3.1 虚拟 机 访问 控制 


访问 控制 通过 限制 主体 对 客体 的 访问 权限 与 范围 ,保证 客体 不 被 非法 访问 。 云 存储 服 
务 文 持 海量 的 用 户 接 入 ,每 个 用 户 都 有 为 其 提供 服务 的 虚拟 机 ,如 何 区 分 不 同 用 户 对 不 同 虚 
拟 机 的 访问 权限 ,需要 通过 虚拟 机 的 访问 控制 机 制 来 实现 。 

在 虚拟 化 软件 栈 中 ,从 VMM, 客户 操作 系统 到 应 用 软件 ,高 优先 级 的 软件 层 能 够 无 限 
制 地 访问 低 优先 级 软件 层 的 代码 和 数据 ,这 种 机 制 威胁 看 整个 软件 栈 的 安全 。 因 此 ,需要 利 
用 访问 控制 机 制 来 阻止 非法 用 户 访问 受 保护 的 数据 资源 ,同时 允许 合法 用 户 访问 受 保护 的 

男 外 ,很 多 应 用 需要 进行 虚拟 机 间 的 通信 ,可 能 带 来 非法 访问 、 边 信道 攻击 等 安全 风险 。 
云 存 储 的 动态 弹性 计算 ,虚拟 机 可 以 根据 性 能 进行 动态 的 迁移 ,也 需要 人 研究 迁移 过 程 中 对 数 
据 的 访问 控制 。 文 献 L75j 和 [76j 都 对 虚拟 机 中 的 访问 控制 技术 做 了 详细 的 阐述 。 

虚拟 机 的 访问 控制 策略 一 般 有 以 下 两 种 方案 : 一 种 是 每 个 虚拟 机 各 上 自 部 署 访问 控制 条 
Wi. 一 种 是 集中 式 存 储 访问 控制 策略 。 第 一 种 方案 的 可 扩展 性 比较 差 , 管 理 烦琐 ; 第 二 种 
方案 将 访问 控制 策略 部 署 在 Hypervisor 上 ,可 以 实现 统一 配置 与 管理 。 

王 于 丁 等 人 ”将 虚拟 机 下 多 租户 的 访问 控制 分 为 以 下 3 类 进行 介绍 。 

1. 通过 多 租户 的 隔离 实现 访问 控制 

通过 对 多 租户 的 隅 离 实 现 访问 控制 ,主要 是 利用 虚拟 机 下 的 隔离 机 制 ,增加 访问 控制 策 
略 并 执行 访问 控制 。 

2010 年 ,Hao 等 人 -提出 将 网 络 访问 控制 策略 集中 存储 在 一 个 中 心服 务 器 上 ,在 转发 
交换 机 上 强制 执行 。 客 户 网 络 的 隅 离 通过 虚拟 局 域 网 来 实现 , 当 分 组 是 发 往 同 一 个 虚拟 局 
域 网 时 , 则 不 执行 访问 控制 策略 而 直接 发 往 目 的 地 虚拟 机 ,以 避免 因 访问 控制 带 来 不 必要 的 
额外 开销 ; 硅 分 组 是 发 送 到 不 同 的 虚拟 局 域 网 , 则 根据 访问 控制 策略 进行 判定 转发 。 

2013 年 ,Factor 4% AU 提出 一 个 逻辑 隔离 多 租户 的 方案 SLIM Secure Logical Isolation 
for Multi-tenancy) ,可 以 极 大 地 提高 系统 物理 隔离 的 安全 性 。SLIM 采用 租户 资源 、 云 存储 
系统 以 及 租户 之 间 逻 辑 隅 离 的 厚 则 ,在 OpenStack 上 实验 验证 了 方案 的 有 效 性 。 

Li 等 人 "提出 利用 云 服 务 提供 商 和 租户 的 安全 职责 分 离 实 现 多 租户 访问 控制 , 云 服 务 
提供 商 负 责 租户 的 添加 、 删除 和 管理 以 及 相关 的 安全 问题 ,而 由 租户 自己 来 管理 自身 的 访问 
控制 。 比 如 ,在 PaaS 服务 模型 中 , 云 服 务 提供 商 提 供 一 个 安全 的 计算 平台 和 开发 环境 , 租 
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户 自 己 要 确保 应 用 程序 安全 可 靠 ; 在 laas 服务 模型 中 , 云 服务 提供 商 为 客户 提供 可 信 的 基 
础 设施 ,租户 自己 要 确保 相关 的 实例 和 镜像 安全 。 

Almutairi 等 人 "提出 一 种 分 布 式 安全 架构 ,该 架构 由 3 部 分 组 成 , 即 虚 拟 资源 管理 器 
(Virtual Resource Manager, VRM) 访问 控制 机 制 ( 采 用 基于 角色 的 模型 ) 和 云 服务 提供 
商 。 由 云 服 务 提 供 商 在 多 租户 环境 中 实施 的 服务 等 级 协议 (Service Level Agreement. 
SLA), 云 间 的 通信 租户 在 同一 层 或 不 同 层 的 通信 以 及 内 部 云 通 信和 都 采用 这 种 分 布 式 安全 
架构 ,他们 还 对 这 种 安全 架构 进行 了 安全 性 证 明 。 

2. 利用 RBAC 模型 进行 访问 控制 

基于 角色 的 访问 控制 (Role-Based Access Control,RBAC) 是 一 种 经 典 的 访问 控制 模 
型 , 它 将 用 户 分 类 为 不 同 的 角色 ,给 予 不 同 角 色 不 同 的 权限 。 

Tang 等 人 ”提出 在 多 租户 认证 系统 的 基础 上 引入 RBAC 访问 控制 模型 ,增加 对 不 同 
租户 的 信任 条 件 ,并 对 多 租户 之 间 的 信任 进行 形式 化 分 析 。 

Yang FAC 提出 并 设计 了 基于 角色 的 多 租户 访问 控制 方案 (Role-Based Multi- 
Tenancy Access Control, RB-MTAC) ,基于 用 户 的 身份 管理 来 确定 适合 的 角色 。 该 方案 可 
以 有 效 地 管理 租户 的 访问 权限 来 实现 应 用 程序 的 独立 和 数据 的 隅 离 ,并 可 以 提高 云 环境 中 
多 租户 服务 的 安全 性 和 隐私 性 。 

3. 通过 Hypervisor 实现 虚拟 机 的 访问 控制 

Hypervisor 在 虚拟 机 中 具有 较 高 的 权限 ,可 以 利用 对 Hypervisor 的 信任 ,由 Hypervisor 来 
实现 对 虚拟 机 的 访问 控制 。 

Lucian 等 人 "提出 一 种 基于 Hypervisor 的 多 租户 访问 控制 机 制 CloudPolice。 他 们 给 
出 了 一 种 处 理 可 伸缩 性 的 方法 ,可 以 让 Hypervisor 动态 地 协调 它 所 承载 的 虚拟 机 的 访问 控 
制 策略 。Hypervisor 根据 源 虚 拟 机 到 目的 虚拟 机 之 间 的 具体 通信 状况 来 确定 访问 控制 策 
略 的 分 布 , 这 些 访问 控制 策略 包括 租户 隔离 .租户 间 通 信 、 租 户 间 公平 共享 服务 和 费 率 限制 
等 。 该 方法 的 主要 思想 是 : 当 数 据 流 到 来 的 时 候 , 由 Hypervisor 在 数据 流 到 达 目 的 虚拟 机 
之 前 ,发 送 一 个 访问 控制 策略 数据 包 ,来 检测 该 数据 流 是 否 符合 访问 策略 ,如 果 不 符合 , 则 请 
求 源 Hypervisor 停止 或 减少 这 种 类 型 的 数据 流 。 该 方法 具有 较 好 的 伸缩 性 和 健壮 性 。 

Anil 等 人 "比较 了 基于 虚拟 化 的 多 租户 架构 与 基于 操作 系统 多 租户 的 架构 ,两 种 架构 
都 可 以 在 虚拟 机 的 Hypervisor 上 隔离 用 户 , 并 通过 一 个 共享 的 操作 系统 实现 强制 访问 控 
制 。 人 研究 表明 ,基于 操作 系统 多 租户 的 架构 可 以 更 加 有 效 地 管理 虚拟 机 的 安全 ，。 

目前 的 虚拟 化 技术 已 经 比较 成 熟 , 多 租户 之 间 的 访问 控制 策略 一 般 和 虚拟 机 内 部 结构 
和 工作 状态 紧密 相关 ,需要 全 面 了 解 CPU 虚拟 化 、 内 存 虚 拟 化 .1/O 虚拟 化 的 技术 ,才能 在 
此 基础 上 更 好 地 改善 其 安全 性 。 

上 述 方案 利用 访问 控制 来 对 内 存 的 安全 进行 防护 ,Szefer 和 Lee" pë h B. HyperWall 
则 利用 CIP(Confidentiality and Integrity Protection) 表 对 恶意 Hypervisor 和 直接 内 存 访问 
(CDMA) 攻 击 进 行 防范 。 

HyperWall 利用 CIP 表 对 每 个 物理 页 标注 Hypervisor 和 DMA 的 访问 权限 ,并 为 CIP 
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表 提 供 一 个 可 信 的 执行 环境 和 存储 区 域 。 当 Hypervisor 或 DMA 访问 内 存 时 , HyperWall 
会 检查 CIP 表 , 查 看 其 是 否 有 权 进 行 访问 。 在 虚拟 机 运行 过 程 中 ,用 户 也 可 以 进行 虚拟 机 
安全 验证 ,查看 是 否 存 在 非法 访问 自己 虚拟 机 的 内 存 , 从 而 为 人 侵 检 测 系 统 和 恶意 行为 检测 
等 提供 依据 。 不 过 ,HyperWall 要 求 用 户 熟 悉 虚 拟 机 系统 的 内 存 部 署 ,能 正确 设 定 每 个 页 面 
的 访问 权限 ,同时 也 存在 数据 残留 问题 , 即 对 于 异常 终止 的 虚拟 机 ,不 能 对 其 内 存 进行 安全 
回收 。 此 外 ,HyperWall 保护 的 对 象 是 客户 虚拟 机 ,对 于 虚拟 机 内 部 的 安全 威胁 则 是 无 能 为 
力 的 。 

Elwell 等 人 5 提出 一 种 非 包含 性 的 (独占 ) 内 存 访问 权限 机 制 (Non-Inclusive Memory 
Permissions. NIMP), 5 HyperWall 的 思路 不 同 ,NIMP 的 保护 对 象 可 细 化 到 应 用 程序 , 主 
要 是 防止 跨 层 攻击 ,使 得 高 特权 层 的 软件 只 能 按照 低 特权 层 软件 预期 的 访问 规则 进行 访问 ， 
以 满足 用 户 的 安全 需求 。 在 NIMP 中 ,每 个 物理 页 拥有 一 个 2 字 节 的 权限 位 集合 ,其 中 的 9 
bits 用 来 表明 Hypervisor 内 核 和 进程 对 该 页 的 访问 权限 ,这些 访 问 权 限 是 在 分 配 页 面 的 时 
候 巾 安全 硬件 模块 依据 权限 规则 设 定 的 。 访 存 指令 会 对 该 权限 规则 进行 相应 扩展 ,添加 该 
访 存 指令 应 具有 的 访 存 权限 ,从 而 保证 了 低 特 权 层 (如 GOS) 的 内 存 页 不 能 被 高 特权 层 软件 
(如 Hypervisor) 访 问 。 在 CPU 的 特殊 Cache 中 存在 7 条 权限 转换 规则 ,以 此 保证 权限 不 能 
被 非法 转换 。 

这 两 种 方案 都 需要 对 内 核 进行 修改 ,HyperWall 需要 修改 Hypervisor, 而 NIMP 对 进 
程 .GOS 和 Hypervisor 都 要 修改 。NIMP 只 是 一 种 特殊 类 型 的 方案 ,该 方案 针对 的 是 特定 
攻击 类 型 ,并 不 能 作为 通用 方案 防护 大 部 分 攻击 。 而 且 , 在 NIMP 方案 中 ,可 以 实现 跨 域 访 
问 攻击 。 假 设 同一 箱 主 机 中 运行 的 两 个 虚拟 机 ,其 系统 分 别 为 GOSI 和 GOS2, GOSI 的 
指令 具有 读 写 (RW) 权 限 ,而 GOS2 的 内 存 页 的 内 核 权 限 是 RW。 利 用 重 映 射 使 得 GOS1 
可 以 访问 GOS2 的 页 ,从 而 实现 跨 域 访问 。Payne 等 人 中 提出 分 层 的 访问 控制 模型 ,用 以 
简化 访问 控制 模块 中 的 主客 体 关 系 链 。 


3.3.2 虚拟 机 隔离 


早 在 1973 年 ,Lampson “就 认识 到 了 隔离 的 重要 性 ,而 且 在 早期 的 计算 机 设计 中 , 比 
如 Multics"*! 和 Cambridge CAP 计算 机 中 已 经 使 用 硬件 特性 实现 地 址 隔离 。 随 着 对 计算 
机 系统 的 安全 性 要 求 越 来 越 高 ,组 件 隔离 成 为 计算 机 系统 的 一 项 基本 的 安全 策略 ,也 是 实现 
更 高 级 别 系统 安全 策略 的 基础 。 比 如 在 处 理 器 内 有 保护 内 存 的 硬件 ,如 内 存 管 理 单元 
(Memory Management Unit, MMU) ,可 以 分 配 不 同 的 虚拟 地 址 给 不 同 的 进程 以 实现 进程 
隔离。 操作 系统 或 管理 程序 可 以 利用 这 些 便 件 组 件 和 上 月 身 的 软件 技术 ,在 软件 组 件 之 间 实 
现 一 种 隔离 策略 。 比 如 操作 系统 内 核 必须 与 驻 留 的 应 用 程序 隔离 ,这样 操作 系统 就 可 以 控 
制 和 实施 L/O 资源 的 访问 控制 策略 。 如 果 没 有 这 种 隔离 ,一 个 恶意 的 应 用 程序 就 可 以 破坏 
内 核 ,进而 阻止 内 核 运 行 任何 其 他 的 安全 服务 或 者 窃取 其 中 的 安全 敏感 信息 。 

在 多 租户 以 及 多 实例 的 虚拟 化 环境 中 ,虚拟 机 之 间 的 隔离 程度 是 虚拟 化 平台 的 安全 性 
指标 之 一 。 通 过 隔离 机 制 ,虚拟 机 之 间 独 立 运 行 、 互 不 干扰 。 
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文献 L90j 对 系统 安全 隔离 技术 做 了 详细 的 阐述 ,其 中 将 系统 隅 离 从 实现 的 层次 划分 为 
3 类 , 即 硬件 隔离 技术 、 软 件 隔 离 技术 及 系统 级 隅 离 技 术 。 但 具体 到 虚拟 机 隔离 技术 ,我们 
将 其 分 为 两 类 ,即便 件 隔 离 技术 与 系统 级 隔离 技术 。 

1. 硬件 隔离 技术 

人 硬件 隅 离 技术 利用 硬件 本 身 提 供 完 整 性 监控 保护 ,从 而 为 虚拟 化 环境 提供 一 个 非 凋 安 
全 的 隅 离 运行 环 境 。 为 了 保证 系统 中 敏感 信息 的 安全 ,在 进行 系统 安全 设计 时 ,考虑 使 用 专 
用 的 硬件 模块 来 提供 一 个 相对 安全 的 硬件 隔离 环境 。 在 此 安全 环境 中 ,可 以 执行 敏感 程序 、 
实施 访问 控制 .对 敏感 数据 进行 加 密 处 理 等 。 可 以 要 求 所 有 程序 的 运行 要 通过 此 模块 的 认 
证 ,这 样 就 可 以 将 系统 中 的 敏感 数据 、 密 钥 等 存储 在 此 模块 中 、。 

使 用 人 硬件 技术 实现 隔离 » — Pc H Ab PR ds ok Sj E Ab PE ea xk BER y Hg e HE Dt ES DU BE. 
A Ar PRSE BUR PF A SS. — Rh AE TE VETT aS TT M ET DER] e PS BO Ab 
理 安 全 事务 ,一 种 是 在 进行 芯片 设计 时 在 忌 片 内 集成 一 个 专门 的 便 件 模块 。 

第 一 种 方案 包括 通常 使 用 的 智能 卡 以 及 手机 中 使 用 的 SIM (Subscriber Identification 
Module, 用 户 身 份 识 别 模块 ) 卡 。 在 当前 智能 计算 时 代 , 几乎 人 人 手中 都 持 有 至 少 一 个 智能 
设备 ,其 中 最 广泛 使 用 的 智能 卡 在 移动 网 络 中 作为 用 户 身 份 的 标识 ,也 作为 信用 卡 的 安全 组 
件 , 可 以 实现 各 种 类 型 的 安全 认证 。 为 外 一 种 实现 隔离 的 计算 设备 是 经 典 的 IBM 4758 加 
密 协 处 理 右 ,可 以 在 通用 计算 机 中 处 理 金融 类 高 安全 性 应 用 中 的 数据 加 解密 ,将 其 非 易 失 性 
存储 隔离 在 防止 自 改 的 空间 内 。 

第 二 种 方案 在 必 片 设计 时 在 芯片 内 集成 一 个 专门 的 硬件 模块 ,又 可 以 分 为 两 类 : 一 类 
是 管理 加 蜜 操作 和 密 钥 存储 的 硬件 安全 模块 ; 男 一 类 是 专门 为 安全 子 系统 设计 的 通用 处 理 
天 一 一 通过 在 主 处 理 需 中 内 置 通用 处 理 引 擎 ,来 专门 为 安全 子 系 统 提供 专用 的 安全 处 理 模 
块 。 该 方案 主要 是 使 用 定制 的 硬件 逻辑 来 阻止 未 授权 软件 对 系统 敏感 资源 的 访问 。 

IO 内 存 管 理 单元 (Input/Output Memory Management Units. IOMMU)'" 可 以 将 设 
备 DMA 地 址 转换 到 物理 地 址 ,限制 设备 只 能 访问 得 到 授权 的 部 分 内 存 。 因 此 ,操作 系统 可 
以 利用 IOMMU 来 隔离 设备 的 驱动 程序 ,虚拟 机 也 可 以 利用 IOMMU 来 限制 便 件 对 虚拟 机 
的 直接 访问 。 

人 硬件 隔离 技术 也 存在 一 些 局 限 性 ,因为 修改 人 硬件 是 一 个 长 期 的 任务 ,需要 产业 界 达 成 一 
致 共识 才 可 能 实现 。 

2. 系统 级 隔离 技术 

系统 级 隔离 技术 是 结合 人 硬件 的 安全 扩展 和 可 信和 软件 在 系统 中 构建 一 个 相对 安全 可 靠 的 
可 信 执 行 环境 (Trusted Execution Environment, TEE)” ,以 将 可 信 程 序 或 敏感 数据 保护 
在 该 隔离 环境 中 ,同时 也 可 以 限制 恶意 代码 的 扩散 。 

2008 年 ,Chen 等 人 "提出 OverShadow ,利用 VMM 为 虚拟 机 中 的 指定 程序 提供 了 一 
个 私密 运行 空间 ,在 这 个 运行 空间 中 运行 的 程序 ,其 内 存 是 不 能 被 操作 系统 或 其 他 程序 访问 
的 。 这 种 内 存 的 隅 离 性 保证 了 数据 在 内 存 中 的 高 度 私密 性 ,即使 整个 OS 受到 损坏 也 能 为 
应 用 数据 提供 保护 。 另 一 方面 ,程序 使 用 的 数据 在 磁盘 上 的 存储 是 密 文 形式 的 。 虚 拟 机 监 
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控 需 在读 写 数 据 时 会 分 别 为 数据 进行 解密 和 加 密 。 结 合 了 上 述 两 项 保护 ,用户 数 据 在 存储 
设备 和 内 存 中 都 得 到 了 虚拟 机 监控 需 的 保护 。 

Azab 等 人 "提出 一 种 基于 TrustZone 的 实时 内 核 保护 机 制 (TrustZone-based Real- 
time Kernel Protection, TZ-RKP) ,采用 某 种 技术 来 限制 普通 程序 对 某 些 特权 系统 功能 的 
控制 ,可 以 有 效 地 阻止 修改 或 注入 二 进 制 文件 的 攻击 ,也 可 以 阻止 修改 系统 内 存 布局 的 
攻击 。 

Sun 等 人 5 提出 一 种 基于 TrustZone 隔离 环境 的 保护 动态 口令 (On Time Password. 
OTP) 安 全 的 机 制 TrustOTP ,能 够 在 OS 遭受 损害 甚至 毁坏 的 情况 下 保护 OTP 的 完整 性 。 
Li 等 人 "基于 TrustZone 平台 提出 一 种 在 线 移动 广告 认证 的 安全 机 制 AdAtterster。 
Yang Ak AUS 基于 TrustZone 机 制 提出 一 种 安全 有 效 的 直接 匿名 认证 (Direct Anonymous 
Attestation ,DAA) 机 制 DAA-TZ。 这 些 人 研究 都 是 利用 系统 级 安全 隔离 环境 来 隔离 OS 中 的 
敏感 应 用 ,防止 其 中 敏感 操作 和 关键 数据 遭受 恶意 攻击 。 以 上 研究 表明 ,基于 系统 级 隔离 环 
境 实现 应 用 程序 的 保护 已 然 是 一 种 比较 行 之 有 效 的 方法 。 

Steinberg 等 人 ”提出 一 个 简单 的 瘦 虚 拟 化 架构 NOV A ,通过 减少 攻击 面 来 改善 系统 
的 整体 安全 性 。Lacombe 等 人 "在 硬件 虚拟 化 的 基础 上 提出 了 一 个 轻 量 级 的 虚拟 机 
Hytux, 它 拥有 比 Linux 内 核 更 高 的 权限 ,从 而 能 保证 Hytux 中 的 防护 系统 内 核 的 安全 机 
制 免 遭 恶意 攻击 。 

Lange 等 人 "基于 先进 的 微 内 核 提 出 一 个 通用 操作 系统 框架 L4Android, 它 允许 虚拟 
机 与 安全 应 用 并 行 运行 ,同时 确保 了 它们 之 间 的 安全 隔离 。Klein 等 人 "提出 一 个 对 操作 
系统 内 核 进行 验证 的 形式 化 方法 seL4, 用 于 检验 由 于 软件 漏洞 等 产生 的 一 些 安全 隐患 。 该 
方法 可 以 对 微 内 核 的 某 些 安全 性 质 进 行 全 面 . 严格 的 检查 。 

Ren 等 人 "提出 为 安全 敏感 型 应 用 提供 一 个 安全 执行 环境 的 方案 AppSec, 能 够 根据 
应 用 程序 的 意图 保护 用 户 的 私有 数据 和 人 机 交互 数据 。AppSec 将 系统 中 应 用 分 为 高 特权 
和 低 特权 两 种 类 型 ,只 有 受 保 护 的 高 特权 进程 能 够 访问 到 日 号 窗口 中 的 数据 。AppSec 利用 
隔离 机 制 防止 用 户 与 系统 设备 交互 的 数据 被 恶意 内 核 截 获 ,并 且 能 够 在 运行 时 通过 存储 在 
Hypervisor 中 的 哈 希 值 对 共享 动态 链接 程序 进行 验证 ,保证 共享 动态 链接 库 不 被 算 改 。 

Rutrowska £% AU?” 提出 一 种 利用 x86 系统 的 CPU 系统 管理 模式 (System Management 
Mode,SMM) 来 监控 虚拟 机 完整 性 的 机 制 HyperGuard。Wang “ AU?" 提出 一 个 硬件 辅助 
的 完整 性 监视 需 HyperCheck ,利用 x86 系统 的 CPU SMM 安全 地 生成 和 传输 被 保护 主机 
的 状态 信息 到 外 部 服务 器 ,可 以 检测 出 影响 Xen 虚拟 机 和 传统 操作 系统 完整 性 的 Rootkit. 
从 而 保护 主机 的 VMM 的 完整 性 。 与 HyperGuard 相 比 ,HyperCheck 有 更 好 的 监控 性 能 。 

Azab 等 人 "中 提出 一 个 度量 系统 中 运行 的 Hypervisor 或 其 他 最 高 权限 软件 层 的 完整 
性 的 系统 架构 HyperSentry, HyperSentry 通过 引入 一 个 与 Hypervisor 隅 离 的 组 件 来 评估 
运行 的 Hypervisor 的 完整 性 ,而 且 可 以 保存 度量 上 下 文 , 从 而 可 以 恢复 一 个 成 功 的 完整 性 
度量 所 涉及 的 输入 信息 。Lengyel AU" 提出 一 个 基于 TrustZone 的 多 层次 安全 的 隔离 
环境 ,用 于 检测 Hypervisor 的 完整 性 。 它 可 以 对 关键 组 件 载 入 及 运行 时 的 完整 性 进行 验 
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证 ,也 可 以 对 虚拟 机 异常 状态 进行 自 查 。 

这 些 系统 都 可 以 对 内 核 和 虚拟 机 的 完整 性 执行 周期 性 检查 ,但 是 所 有 的 攻击 都 只 能 在 
攻击 发 生 后 才能 被 检测 到 ,如果 一 些 恶意 程序 具有 隐藏 功能 ,那么 以 上 系统 都 检测 不 到 。 因 
此 ,合理 的 检测 系统 应 该 能 在 攻击 发 生 之 前 就 可 以 进行 预 判 ,从 而 阻止 攻击 的 发 生 。 

McCune 等 人 10 提出 一 个 基于 可 信 平 台 模 块 CTrusted Platform Module. TPM) 的 隔 
离 系 统 Flicker, 该 系统 具有 很 小 的 可 信 计 算 基 (Trusted Computing Base, TCB) ,可 以 用 来 
执行 敏感 代码 并 提供 了 执行 代码 的 远程 认证 功能 ,但 是 具有 较 大 的 性 能 开销 。 

为 了 改善 Flicker 的 性 能 ,他 们 又 提出 一 个 专用 的 Hypervisor, 记 作 TrustVisor ^" , 
它 利 用 硬件 虚拟 化 的 特性 和 TPM 为 进程 和 内 核 提 供 一 个 隔离 的 运行 环境 , 称 为 PAL 
(Pieces of Application Logic, 应 用 程序 逻辑 块 )。PAL 可 以 保证 其 内 数据 的 完整 性 和 机 密 
性 。TrustVisor 能 够 对 应 用 进程 的 敏感 代码 和 数据 进行 细 粒 度 的 保护 ,而且 TrustVisor 很 
小 巧 ,可 以 方便 地 进行 形式 化 验证 ,同时 也 减 小 了 可 信 计 算 基 的 大 小 。 在 Iso-X ”中 也 采 
用 了 这 样 的 思想 。 隅 离 执行 环境 的 缺点 是 需要 由 程序 开发 者 指定 隅 离 域 ,这 需要 程序 员 有 
良好 的 编程 习惯 和 编程 素养 。 

以 Docker ”为 代表 的 容器 技术 ,作为 一 个 开源 的 引擎 ,能 为 任何 应 用 创建 一 个 轻 量 
级 .可 移植 的 及 目 给 上 月 足 的 容 希 。 在 最 小 化 需要 运行 的 容 希 上 ,开发 者 需要 权衡 容 天 与 系统 
之 间 的 分 离 度 ,而 虚拟 机 与 主机 的 分 离 性 比 容 融 会 更 高 。Docker 可 以 从 操作 系统 内 部 为 应 
用 程序 提供 隔离 的 运行 空间 ,是 一 种 操作 系统 层 的 虚拟 化 。 在 Docker 中 ,每 个 容 需 独 享 一 
个 完整 用 户 环 境 空间 , 且 一 个 容 需 的 变动 不 会 影 啊 其 他 容 融 的 正 篆 运 行 。 

沙 箱 (SandBox)" 技术 按照 严格 的 安全 策略 来 限制 不 可 信 进 程 或 不 可 信 代 码 运行 的 
访问 权限 ,因此 它 能 用 于 执行 未 被 测试 或 不 可 信 的 应 用 。 沙 箱 内 的 应 用 需要 访问 系统 资源 
时 , 它 首 先 会 发 出 读 系统 资源 的 请 求 ,然后 系统 会 核查 该 资源 是 否 在 它 所 操作 的 权限 范围 
内 ,如果 核 查 通过 则 完成 恋 请 求 ,否则 系统 会 拒绝 其 操作 。 沙 箱 能 为 不 可 信 应 用 提供 虚拟 化 
的 内 存 、 文 件 系统 和 网 络 资 源 等 ,也 正 是 由 于 其 内 的 资源 被 虚拟 化 , 它 能 将 不 可 信 应 用 的 恶 

意 行为 限制 在 有 限 的 机 制 内 ,这 样 能 防止 不 可 信 应 用 可 能 损害 其 他 应 用 甚至 是 威胁 系统 的 
"v 

以 上 是 系统 级 隅 离 技 术 的 相关 研究 工作 。 相 比 而 言 , 硬 件 隔离 技术 可 以 很 好 地 将 敏感 
数据 保护 在 可 徘 的 物理 设备 中 ,并 可 以 采用 更 加 先进 的 防 自 改 技术 ,但 是 纯 人 硬件 加 密 模 块 会 
增加 系统 的 功 耗 并 且 需 要 在 忆 片 上 增加 专门 的 模块 ,通用 安全 处 理 融 则 因为 需要 与 主 处 理 
天 通信 而 影响 系统 性 能 ,因此 人 硬件 隅 离 技术 会 影响 系统 的 性 能 。 系 统 级 隅 离 技 术 不 需要 重 
新 设计 人 硬件 ,因此 开发 成 本 小 且 周 期 短 , 对 系统 的 性 能 影响 也 较 小 。 


3.3.3 其 他 安全 机 制 


由 于 操作 系统 的 功能 非常 强大 ,其 实现 机 制 也 很 复杂 ,那么 区 分 哪些 程序 是 正常 或 异常 
的 也 是 一 件 比 较 困难 的 事情 。Hofmann 等 人 “提出 一 种 基于 虚拟 化 的 安全 框架 InkTag， 
通过 验证 客户 操作 系统 的 行为 ,保证 即使 是 恶意 的 GOS 也 能 够 安全 地 执行 高 敏感 进程 
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(High Assurance Process. HAP), InkTag 通过 基于 半 虚 拟 化 的 验证 机 制 强 制 GOS 为 
Hypervisor 和 应 用 程序 提供 验证 日 号 行为 的 相关 信息 ,利用 超级 调用 在 切换 的 过 程 中 对 
HAP 的 上 下 文 进行 保护 ,并 对 内 存 页 进行 完整 性 检查 和 机 密 性 保护 。 在 运行 的 过 程 中 ， 
InkTag 可 以 限制 GOS 对 HAP 寄存 天 数据 的 修改 ,从 而 保证 HAP 的 控制 流 完整 性 不 会 被 
GOS 破坏 。InkTag 并 没有 采取 将 HAP 数据 /代码 与 GOS 隔离 的 机 制 ,而 是 提出 了 一 种 基 
于 属性 的 访问 控制 机 制 (Attribute Based Access Control) ,让 用 户 灵 活 地 设置 针对 HAP 的 
访问 控制 策略 ,从 而 保护 他 们 日 己 的 数据 机 密 性 和 完整 性 。 但 是 InkTag 需要 对 GOS 进行 
更 改 , 同 时 需要 重新 编写 HAP ,使 其 文 持 超级 系统 调用 ,这 样 可 能 会 导致 与 其 他 系统 的 兼容 
性 问题 。 此 外 ,由 于 GOS 与 Hypervisor 交互 的 接口 ,造成 Hypervisor 被 攻击 的 可 能 ; 同时 
如 果 GOS 拒绝 将 信息 传递 给 Hypervisor, 则 会 形成 DoS 攻击 。 

在 提高 虚拟 机 可 靠 性 的 镜像 备份 以 及 备份 去 元 方面 ,也 有 一 些 研 究 工 作 。 在 文献 [L111] 
中 , 徐 继 伟 等 人 提出 一 种 基于 遗传 算法 的 虚拟 机 镜像 和 月 适应 备份 策略 , 即 针对 不 同 的 虚拟 机 
镜像 备份 策略 ,分 别 建立 资源 需求 模型 ,根据 系统 当前 资源 占用 情况 自 适应 地 进行 策略 规 
划 , 从 而 最 小 化 备份 时 间 。Jin 等 人 "提出 一 个 虚拟 机 镜像 系统 中 的 去 元 余 方案 ,他 们 的 
实验 表明 在 虚拟 机 镜像 去 元 余 中 变 长 切 分 和 定 长 切 分 的 效果 相近 。Fu 等 人 ”一 采用“ 源 ”去 
JER (Source Deduplication) 方 案 在 私有 云 计 算 环 境 中 实现 了 虚拟 机 备份 ,备份 数据 先 在 
“ 源 ” 端 进行 聚合 再 传输 到 备份 端 。Jayaram 等 人 " “分 析 了 虚拟 机 镜像 的 相似 性 ,指出 虚拟 
机 镜像 具有 小 范围 相似 的 特点 。Zhang 等 人 -针对 大 规模 的 虚拟 机 镜像 去 元 余 提 出 了 一 
种 低 开 销 可 扩展 的 解决 方案 ,其 核心 思想 是 在 实际 的 存储 中 进行 重复 数据 检测 ,而 不 是 内 联 
去 匈 余 。 该 方法 将 数据 索引 进行 划分 ,在 不 同 虚拟 机 之 间 执 行 去 宛 余 。 

针对 虚拟 机 系统 中 存在 的 网 络 方面 的 威胁 ,如 拒绝 服务 攻击 ,Lakshmi 等 人 "提出 了 
一 种 新 的 L/O 虚拟 架构 ,为 每 个 虚拟 机 配置 一 个 虚拟 网 卡 , 虚 拟 机 可 以 通过 日 号 的 网 卡 驱 
动 与 虚拟 网 卡 直 接 进 行 通信 ,然后 通过 VMM 监视 每 个 虚拟 机 的 数据 流 。 这 样 可 以 防御 诸 
如 DMA 的 无 控制 漏洞 和 DoS 攻击 等 威胁 ; 与 此 同时 ,也 可 以 提高 网 络 性 能 。 

Catuogno 等 人 2 提出 一 种 基于 TCB 的 可 信和 虚拟 域 (Trusted Virtual Domain, TVD) 
的 设计 和 实现 ,通过 安全 策略 和 TVD 协议 实现 可 徘 性 。 在 交叉 平台 架构 下 ,实现 TVD 的 
生命 周期 管理 ,并 在 Xen Al L4 微 内 核 平台 上 实现 原型 系统 。Berger A AUT ipii jr Be PE 7; 
法 设计 了 基于 硬件 TPM 的 虚拟 TPM 来 保证 多 个 虚拟 机 的 可 靠 性 。Ruan S A" 设计 了 一 
种 通用 可 信和 虚拟 平台 架构 (Generalized Trusted Virtualized Platform architecture, GTVP) ,将 控 
制 域 划 分 为 管理 、 安 全 、 设 备 、 操 作 系 统 成 员 及 通信 5 个 子 域 ,每 个 子 域 都 完成 相应 的 功能 ， 
以 实现 安全 以 及 负载 均衡 的 目标 。 

程 川 中 提出 了 一 种 基于 Xen 的 信任 虚拟 机 安全 访问 机 制 , 为 用 户 提供 了 一 种 有 效 的 
安全 访问 敏感 数据 的 模式 。 其 核心 思想 是 利用 虚拟 机 的 隅 离 性 ,为 数据 应 用 提供 一 个 专用 
的 隔离 环境 ,同时 利用 可 信 计 算 技术 保证 该 虚拟 平台 配置 状态 的 可 信人 性 。 

Jansen 4 AU?" 提出 利用 传统 的 安全 技术 如 入 侵 检测 技术 ,并 通过 虚拟 化 来 提高 系统 
的 安全 性 和 独立 性 。 首 先 在 安全 主 域 配置 入 侵 检 测 系 统 , 通 过 对 客户 机 的 用 户 命令 信息 和 
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内 核 内 存 所 获取 的 信息 进行 比较 以 判断 是 否 为 人 侵 , 然 后 通过 设置 保护 模块 获取 客户 机 系 
统 调 用 、 进 行进 程 等 事件 管理 ,实现 完整 性 人 保护。 张志新 等 人 "** 提出 了 基于 Xen AY A BUS 
测 服 务 ,通过 在 VMM 层 设置 人 侵 检 测 系 统 , 可 以 监控 到 所 有 对 操作 系统 的 人 侵 , 同 时 将 系 
统 放 置 在 一 个 独立 于 操作 系统 之 外 的 受 保护 的 空间 内 ,增强 了 入 侵 检 测 系 统 的 独立 性 和 检 
测 能 力 。 

朱 民 等 人 中 针对 虚拟 化 软件 栈 不 同 软件 层 的 安全 威胁 、 攻 击 方式 和 威胁 机 理 进行 了 
分 析 ,并 针对 这 些 安全 威胁 ,以 可 信 基 为 视角 ,从 基于 虚拟 机 监控 器 、 基 于 微 虚 拟 机 监控 需 、 
基于 舱 套 虚拟 化 和 基于 安全 硬件 等 类 别 分 析 比 较 了 国内 外 相关 安全 方案 和 技术 ,并 指出 了 
当前 仍然 存在 的 安全 问题 。 另 外 ,针对 云 计 算 和 虚拟 化 的 安全 问题 的 研究 工作 还 可 以 参考 
文献 [124-126 等 。 

另外 ,在 实施 安全 策略 的 过 程 中 应 坚持 以 下 原则 。 

(1) 正确 配置 虚拟 机 监视 器 并 对 客户 虚拟 机 进行 监控 ,及 时 发 现 人 侵 和 攻击 并 阻止 
它们 。 

(2) 远程 管理 程序 的 连接 采用 动态 身份 认证 和 防 SQL 注入 技术 ,防范 对 管理 程序 的 攻 
击 。 同 时 ,虚拟 机 的 管理 应 仅 限于 企业 的 关键 工作 人 员 ,这些 人 员 要 有 较 好 的 职业 操守 和 安 
全 意识 。 

(3) 保持 虚拟 机 系统 及 管理 程序 安装 最 新 升级 或 补丁 ,要 定期 进行 检查 或 自动 升级 ,从 
而 防范 攻击 者 利用 已 知 的 漏洞 对 系统 及 管理 程序 发 起 攻击 。 

(4) 对 虚拟 机 的 资源 进行 约束 ,防止 单个 虚拟 机 独占 所 有 物理 资源 ,造成 拒绝 服务 
攻击 。 

(5) 将 资源 进行 再 分 配 时 ,建议 对 存储 区 域 进 行 重 写 履 盖 , 因 为 前 虚拟 机 的 数据 存 于 内 
存 或 硬盘 上 ,分 配给 别 的 虚拟 机 时 ,需要 将 这 些 数 据 进行 重 写 覆盖 。 

(6) 云 服 务 提供 商 应 该 提供 较 好 的 虚拟 机 备份 机 制 , 定 期 创建 备份 。 

(7) 在 虚拟 机 迁移 过 程 中 ,检查 迁移 虚拟 机 的 环境 ,对 虚拟 机 内 存 等 状态 信息 和 虚拟 机 
副本 进行 保护 。 此 外 ,在 虚拟 机 进行 迁移 、 和 暂停 并 重新 启动 时 ,建立 对 安全 性 进行 明确 定义 
和 记录 的 策略 。 


3.4 存在 的 问题 与 未 来 发 展 方 回 


当前 虚拟 化 的 安全 性 研究 主要 集中 在 对 Hypervisor 的 保护 、 对 虚拟 机 的 隔离 以 及 对 虚 
拟 机 的 内 部 系统 与 应 用 的 保护 。 在 针对 虚拟 化 平台 的 攻击 中 ,很 多 是 利用 云 基 础 设施 在 系 
统管 理 程序 中 存在 的 缺陷 与 漏洞 ,采取 不 同 的 攻击 方式 以 获取 操作 权限 或 守 取 敏感 数据 。 
目前 ,在 云 存 储 虚 拟 化 安全 方面 的 研究 已 经 取得 非常 丰富 的 研究 成 果 , 但 仍然 存在 以 下 
问题 。 

(1) 在 实际 应 用 中 ,虚拟 机 动态 增加 ,造成 虚拟 机 回收 与 清理 困难 ,形成 一 些 僵尸 虚拟 
机 项 灵 虚 拟 机 和 虚 胖 虚拟 机 ,造成 对 虚拟 机 的 管理 困难 。 比 如 , 弃 用 的 僵尸 虚拟 机 消耗 着 
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资源 ,被 删除 的 虚拟 机 副本 占据 存储 资源 ,过 度 配 置 的 虚拟 机 没有 得 到 充分 利用 。 

(2) 不 可 信 的 云 内 部 人 员 带 来 的 内 部 威胁 。 因 为 云 内 部 人 员 可 能 拥有 过 高 的 访问 权 
限 ,而 且 他 们 的 行为 不 受 防 火场 和 入 侵 检 测 系统 的 限制 ,在 利益 驱动 下 可 能 会 侵犯 用 户 的 隐 
A. RAP WY Be. WA Xen 为 例 , 管 理 员 可 以 对 用 户 的 虚拟 机 进行 快照 和 Dump 备份 , 甚 
至 可 以 监听 用 户 的 网 络 。 内 部 威胁 的 防范 是 件 困 难 的 事情 ,难以 从 技术 层面 解决 。 

(3) 针对 虚拟 化 日 号 的 安全 威胁 ,当前 的 云 服务 提供 商 通 党 采用 被 动 打 补丁 的 方式 解 
决 。 然 而 ,这 不 仅 给 用 户 审 来 了 不 便 , 而 且 这 种 方式 也 只 能 防范 已 公布 的 洗 洞 ,对 于 和 零 日 攻 
击 或 潜在 的 漏洞 仍然 无 能 为 力 。 

(4) 异常 检 测 技术 通 沼 难以 抵御 特殊 类 型 的 安全 攻击 ,如 资源 释放 型 攻击 和 高 速 隐 菩 
信道 攻击 等 。 

(5) 用 户 离 开 茶 个 云 虚拟 化 平台 ,其 数据 是 否 被 彻底 删除 ,是 一 个 难以 证 明 的 问题 。 

对 于 虚拟 化 和 目 身 的 安全 问题 ,要 减少 攻击 面 ,并 对 虚拟 化 平台 目 身 进行 完整 性 保护 。 针 
对 内 部 威胁 ,要 让 虚拟 机 的 管理 过 程 对 用 户 可 见 , 同 时 设计 能 够 独立 于 云 服务 提供 商 的 安全 
防御 策略 ,从 而 有 效 限 制 内 部 人 员 滥 用 权限 。 对 于 数据 残留 问题 ,需要 加 强 法 律 法 规 建设 。 
防御 甸 取 服务 攻击 需要 结合 基础 设施 的 差异 ,设计 适用 于 不 同 管理 程序 的 虚拟 机 监控 方案 ， 
同时 要 考虑 安全 机 制 对 云 平 台 性 能 的 影响 。 


3.5 RENE 


本 章 介绍 了 云 存储 虚拟 化 安全 的 相关 研究 工作 。 首 先 对 云 存储 虚拟 化 技术 的 分 类 以 及 
寓 来 的 安全 挑战 进行 阐述 ; 然后 重点 介绍 了 针对 虚拟 机 的 攻击 方法 ,以 及 针对 这 些 攻 击 方 
法 有 哪些 安全 机 制 ,主要 是 虚拟 机 访问 控制 和 虚拟 机 隔离 ; 最 后 总 结 仍然 存在 的 问题 以 及 
进一步 的 人 研究 方 问 。 
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TIE) 云 存 储 系统 身份 认证 
与 访问 控制 


“On the Internet, nobody knows you're a dog.”( 在 互联 网 上 ,没有 人 知道 你 是 一 条 
狗 。) 这 向 话 是 《纽约 客 》1993 年 7 月 5 日 刊登 的 一 则 由 Peter Steiner 创作 的 漫画 的 标题 。 
这 则 漫画 中 有 两 条 狗 ,一 条 狗 坐 在 计算 机 前 的 一 张 椅 子 上 , 另 一 条 狗 坐 在 地 板 上 说 话 。 

互联 网 的 开放 、 共 享 与 非 实名 的 特征 决定 了 其 上 实体 之 间 交 互 时 存在 信任 问题 ,因此 为 
了 实现 不 同 实体 之 间 的 安全 通信 与 数据 共享 ,双方 都 需要 进行 身份 认证 与 访问 控制 。 

本 章 将 对 云 存 储 系 统 中 身份 认证 与 访问 控制 技术 进行 详细 介绍 。 


4.1 身份 认证 与 访问 控制 概述 


在 信息 安全 领域 ,身份 认证 与 访问 控制 就 像 是 挛 生 兄弟 ,总 是 联系 在 一 起 。 因 为 通常 进 
行 身 份 认 证 后 ,下 一 步 就 是 对 该 身份 的 实体 进行 访问 控制 。 下 面 将 对 身份 认证 与 访问 控制 
ribet 井 行 介绍 ,界定 本 间 将 重点 讨论 的 内 容 。 


4.1.1 基础 知识 


号 份 认证 是 对 访问 系统 用 户 的 身份 进行 鉴别 的 过 程 。 文 献 L1j 对 认证 的 本 质 有 一 个 比 
较 清 晰 的 说 明 。 认 证 是 保护 重要 数字 资产 和 机 密 信 息 免 受 盗 穷 和 欺诈 的 基础 。 通 常 认 证 可 
以 使 用 以 下 3 种 方式 中 的 一 种 或 者 组 合 来 完成 。 
。 用 户 拥 有 什么 : 登录 名 、 智 能 卡 、 令 牌 、 数字 便 件 指纹 (What you have: login name. 
smart card.token.digital hardware fingerprint) 。 
。 用 户 知道 什么 : 口令 、 通 行 证 .个 人 识别 号 码 (What you know: password, pass 
phrase, personal identification number (PIN)), 
。 用 户 是 什么 (用 户 的 固有 特征 ): 指纹 .视网膜 模式 .DNA 序列 、 签 名 或 语音 识别 、 独 特 
的 生物 电信 号 或 其 他 生物 识别 标识 符 (What you are: fingerprints.retinal pattern. DNA 
sequence, signature or voice recognition. unique bio-electric signals. or another 
biometric identifier), 


对 用 户 进 行 身 份 认证 后 ,下 一 步 就 是 访问 控制 。 访 问 控 制 包括 3 SRR: 主体 、 客 体 和 
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控制 策略 。 访 问 控制 的 目的 是 限制 主体 对 客体 的 访问 ,从 而 保障 数据 资源 在 合法 范围 内 得 
以 有 效 使 用 与 管理 。 为 了 达到 上 述 目的 ,访问 控制 需要 完成 两 个 任务 : 识别 和 确认 访问 系 
统 的 用 户 .决定 该 用 户 可 以 对 某 一 系统 资源 进行 何 种 类 型 的 访问 。 访 问 控制 三 要 素 的 说 明 
如 下 。 

(OD 主体 (Subject) : 提出 资源 访问 请 求 的 实体 ,是 某 一 操作 动作 的 发 起 者 ,但 不 一 定 是 
动作 的 执行 者 ; 可 能 是 某 一 用 户 ,也 可 以 是 用 户 启 动 的 进程 .服务 和 设备 等 。 这 里 规定 实体 
(Entity) 表 示 用 户 所 在 的 组 织 ( 用 户 组 )、 用 户 、 用 户 使 用 的 计算 机 终端 或 一 个 计算 机 资源 
(物理 设备 、 数 据 文件 ,程序 或 进程 )。 

(2) RCObject): 被 访问 资源 实体 。 所 有 可 以 被 操作 的 信息 、 资 源 和 对 象 都 可 以 是 客 
体 。 客 体 可 以 是 信息 文件 .记录 等 集合 体 , 也 可 以 是 网 络 上 硬件 设施 和 无 线 通信 中 的 终端 ， 
甚至 可 以 包含 另外 一 个 客体 。 

(3) 访问 策略 (Attribution) : 主体 对 客体 的 操作 行为 集 和 约束 条 件 集 ,定义 了 主体 对 客 
体 的 作用 行为 和 客体 对 主体 的 条 件 约 束 。 访 问 策略 体现 了 一 种 授权 行为 ,是 客体 对 主体 某 
些 操作 行为 的 权限 许可 ,所 有 许可 都 必须 在 规则 集 范围 内 。 

访问 控制 就 是 主体 依据 某 些 访问 策略 或 权限 控制 对 客体 本 身 或 其 资源 进行 的 不 同 授 权 
访问 。 访 问 控制 技术 起 源 于 20 世纪 70 年 代 , 当 时 是 为 了 满足 管理 大 型 主机 系统 上 共享 数 
据 时 进行 授权 访问 的 需求 。 访 问 控制 有 以 下 3 个 重要 的 功能 。 

(OD 防止 非法 主体 访问 受 保护 的 系统 资源 。 

(2) 保证 合法 用 户 访 问 受 保护 的 系统 资源 。 

(3) 防止 合法 用 户 对 受 保护 的 系统 资源 进行 非 授 权 的 访问 。 

但 是 随 着 计算 机 技术 和 应 用 的 发 展 ,特别 是 互联 网 的 发 展 ,访问 控制 技术 的 思想 和 方法 
迅速 应 用 于 信息 系统 的 各 个 领域 。 

上 身份 认证 在 云 存 储 系统 中 与 在 传统 存储 系统 或 计算 模式 下 ,并 没有 什么 改变 ,因此 已 有 
的 身份 认证 技术 仍然 可 以 直接 利用 而 且 已 经 广泛 应 用 于 云 存 储 系统 中 。 但 是 因为 云 存 储 环 
境 下 ,主体 与 客体 的 关系 、 各 实体 的 可 信 性 都 发 生 了 变化 ,所 以 大 部 分 传统 访问 控制 技术 并 
不 能 直接 应 用 于 云 存 储 系 统 。 

因此 ,本 章 将 重点 介绍 云 存 储 系 统 中 的 访问 控制 技术 ,分 析 在 云 存 储 环 境 下 对 访问 控制 
的 需求 ,并 与 传统 的 访问 控制 技术 进行 区 别 。 


4.1.2 传统 访问 控制 


早 在 20 世纪 70 4E C. Lampson 就 提出 了 访问 控制 的 形式 化 和 机 制 描述 ,引入 了 主 
体 .客体 和 访问 和 矩阵 的 概念 。 在 随后 奋 干 年 的 发 展 过 程 中 ,先后 出 现 了 多 种 重要 的 访问 控制 
技术 ,包括 自主 访问 控制 (Discretionary Access Control, DAC) 58 ril D7 In] $5 Hil] (Mandatory 
Access Control, MAC) 和 基于 角色 的 访问 控制 (Role-Based Access Control. RBAC) , 

日 从 Lampson 提出 访问 控制 机 制 后 ,对 访问 控制 模型 的 研究 ,大 致 经 历 了 以 下 4 个 
阶段 。 
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(1) 20 世纪 六 七 十 年 代 应 用 于 大 型 主机 系统 中 的 访问 控制 模型 ,比如 Bell-Lapadula 模 
Fey C5 和 HRU pin A 

(2) 美国 国防 部 (Department of Defense. DoD) Æ 1985 年 公布 的 “可 信 计 算 机 安全 评价 
标准 (Trusted Computer System Evaluation Criteria,TCSEC)2”5 中 明确 提出 了 访问 控制 在 
计算 机 安全 系统 中 的 重要 作用 ,并 指出 一 般 的 访问 控制 机 制 有 两 种 : 自主 访问 控制 (DAC) 
和 强制 访问 控制 (MAC) 。 

(3) 从 Ferraiolo 和 Kuhn 在 1992 年 提出 的 基于 角色 的 访问 控制 (RBAC) 模 型 ,到 
Sandhu 等 人 先后 提出 了 RBAC96'7 , ARBAC97™! 和 ARBACO9' fit 98), ,再 到 2001 年 8 月 
NIST R# f RBAC il tp EO! , Ferraiolo-Kuhn 模型 将 现 有 的 面向 应 用 的 方法 应 用 到 
RBAC 模型 中 ,是 RBAC 模型 最 早 的 形式 化 描述 。NIST RBAC 建议 标准 进一步 对 角色 进 
行 了 详细 的 研究 ,在 用 户 和 访问 权限 之 间 引 入 了 角色 的 概念 。 

(4) 对 访问 控制 模型 的 扩展 研究 ,比较 有 代表 性 的 有 : 应 用 于 工作 流 系统 或 分 布 式 系 
统 中 的 基于 任务 的 授权 控制 模型 (Task-Based Authentication Control, TBACOU , 基于 任 
务 和 角色 的 访问 控制 模型 (Task-Role-Based Access Control. T-RBACOU? 以 及 被 称 作 下 一 
代 访问 控制 模型 的 使 用 控制 (Usage Control,UCON) 模 型 所 2 (也 称 之 为 ABC BiU), 

1. 自主 访问 控制 

自主 访问 控制 是 指 由 用 户 对 自身 所 创建 的 访问 对 象 (文件 .数据 表 等 ) 进 行 访问 控制 ,并 
可 将 对 这 些 对 象 的 访问 权 授 予 其 他 用 户 或 从 授予 权限 的 用 户 那 里 收回 其 访问 权限 。 自 主 访 
问 控 制 中 ,用 户 可 以 针对 被 保护 对 象 制定 自己 的 保护 策略 。 

DAC 模型 一 般 通 过 访问 控制 矩阵 和 访问 控制 列表 (Access Control List. ACL) 来 存放 
不 同 主体 的 访问 控制 信息 ,从 而 达到 限定 哪些 主体 对 哪些 客体 可 以 执行 什么 操作 的 目的 。 
Linux 操作 系统 就 是 采用 的 DAC 访问 控制 模型 。 

每 个 主体 拥有 一 个 用 户 名 并 属于 一 个 组 或 具有 一 个 角色 ,而 每 个 客体 都 拥有 一 个 限定 
主体 对 其 访问 权限 的 访问 控制 列表 ,每 次 访问 发 生 时 都 会 基于 访问 控制 列表 检查 用 户 以 实 
现 对 其 访问 权限 的 控制 。 

2. 强制 访问 控制 

强制 访问 控制 是 指 由 系统 通过 专门 设置 的 系统 安全 管理 员 对 用 户 所 创建 的 对 象 进行 统 
一 的 强制 性 控制 ,按照 制定 的 规则 决定 哪些 用 户 可 以 对 哪些 对 象 进行 什么 操作 。 即 使 是 创 
建 者 ,在 创建 一 个 对 象 后 ,也 可 能 无 权 访问 该 对 象 。 

在 强制 访问 控制 模型 中 ,系统 独立 于 用 户 行为 强制 执行 访问 控制 ,用 户 不 能 改变 他 们 的 
安全 级 别 或 对 象 的 安全 属性 。MAC 的 访问 控制 规则 通常 对 所 有 主体 (用 户 ,进程 ) 和 客体 
(文件 ,数据 ) 按 照 安 全 等 级 划分 标签 ,访问 控制 机 制 通过 比较 安全 等 级 来 确定 用 户 对 资源 的 
访问 。 

MAC 是 一 种 强加 给 访问 主体 , 即 系统 强制 主体 服从 访问 控制 策略 的 一 种 访问 方式 , 它 
利用 上 读 / 下 写 来 保证 数据 的 完整 性 ,利用 下 读 / 上 写 来 保证 数据 的 保密 性 。 

其 中 上 读 / 下 写 和 下 读 / 上 写 的 定义 如 下 。 
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(1) 向 下 读 (Crd,read down): 主体 安全 级 别 高 于 客体 信息 资源 的 安全 级 别 时 允许 的 读 

(2) [8] EE Cru. read up): 主体 安全 级 别 低 于 客体 信息 资源 的 安全 级 别 时 允许 的 读 
操作 。 

(3) [8] FS (wd, write down): 主体 安全 级 别 高 于 客体 信息 资源 的 安全 级 别 时 允许 执 
行 的 动作 或 是 写 操作 。 

(4) fh] ES (wu, write up): 主体 安全 级 别 低 于 客体 信息 资源 的 安全 级 别 时 允许 执行 的 
动作 或 是 写 操 作 。 

一 种 服务 如 果 以 “秘密 ”的 安全 级 别 运 行 , 攻 击 者 在 目标 系统 中 以 “秘密 ”的 安全 级 别 进 
行 操作 ,他 将 不 能 访问 系统 中 安全 级 别 为 机密” 及 “高 密 ” 的 数据 。 

MAC 通过 分 级 的 安全 标签 实现 了 信息 的 单 向 流通 ,其 中 最 著名 的 是 Bell-LaPadula 模 
型 ”和 Biba 模型 ” : Bell-LaPadula 模型 具有 只 允许 向 下 读 、 向 上 写 的 特点 ,可 以 有 效 地 防 
止 机 密 信 息 向 下 级 泄露 ; Biba 模型 则 具有 不 允许 癌 下 读 、 回 上 写 的 特点 ,可 以 有 效 地 保护 数 
据 的 完整 性 。 强 制 访问 控制 进行 了 很 强 的 等 级 划分 ,所 以 经 党 用 于 军事 用 途 。 

强制 访问 控制 和 目 主 访问 控制 有 时 会 结合 使 用 。 例 如 ,系统 可 能 首先 执行 强制 访问 控 
制 来 检查 用 户 是 否 有 权限 访问 一 个 文件 组 (这 种 保护 是 强制 的 ,也 就 是 说 ,这 些 寅 略 不 能 被 
用 户 更 改 ) ,然后 再 针对 该 组 中 的 各 个 文件 制定 相关 的 访问 控制 列表 (上 月 主 访问 控制 策略 ) 。 

3. 基于 角色 的 访问 控制 

基于 角色 的 访问 控制 模型 将 权限 与 角色 相关 联 , 用 户 通过 成 为 适当 角色 的 成 员 来 获得 
相应 角色 的 权限 ,解决 了 在 传统 的 访问 控制 中 主体 始终 是 和 特定 的 实体 捆绑 的 不 灵活 问题 ， 
实现 了 主体 的 灵活 授权 ,是 最 经 典 的 访问 控制 模型 。 

目前 ,RBAC 被 广 沁 应 用 在 操作 系统 、 数 据 库 管理 系统 、 公 钥 基 础 设施 (Public Key 
Infrastructure, PKD ,工作 流 管理 系统 和 Web 服务 等 领域 。 

4. 基于 任务 和 角色 的 访问 控制 

基于 任务 和 角色 的 访问 控制 模型 (T-RBAC) 把 任务 和 角色 置 于 同等 重要 的 地 位 , 先 将 
访问 权限 分 配给 任务 ,再 将 任务 分 配给 角色 ,角色 通过 任务 与 权限 关联 ,任务 是 角色 和 权限 
交换 信息 的 桥梁 。 在 T-RBAC 模型 中 ,任务 具有 权限 ,角色 只 有 在 执行 任务 时 才 具 有 权限 ， 
当 角 色 不 执行 任务 时 不 具有 权限 。 权 限 的 分 配 和 回收 是 动态 进行 的 ,任务 根据 流程 动态 到 
达 和 角色, 权限 随 之 赋予 角色 ; 当 任 务 完成 时 ,角色 的 权限 也 被 随 之 收回 ,角色 在 工作 流 中 不 
需要 赋予 权限 。 这 样 不 仅 使 角色 的 操作 .维护 和 任务 的 管理 变 得 简单 方便 ,也 使 得 系统 变 
得 更 为 安全 。 

5. 下 一 代 访 问 控制 

下 一 代 访 问 控制 模型 UCON( 也 称 ABC 模型 ) ,包含 3 个 基本 元 素 和 3 个 与 授权 有 关 
的 元 素 。3 个 基本 元 素 分 别 是 主体 (Subject) 客体 (Object)、 权限 (CRight); 另外 3 个 与 授权 
有 关 的 元 素 分 别 是 授权 规则 (Authorization Rule) ,Z& fF (Condition) , X. 4 (Obligation) 。 

主体 是 具有 某 些 属 性 并 对 客体 (Objects) 具 有 操作 权限 的 实体 。 主 体 的 属性 包括 身份 、 
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角色 、 安 全 级 别 、 成 员 资 格 等 。 客 体 是 主体 的 操作 对 象 ,其 属性 包括 安全 级 别 .、 所 有 者 、 等 级 
等 。 权 限 是 主体 拥有 的 对 客体 进行 操作 的 一 些 特权 ,由 一 个 主体 对 客体 进行 访问 或 使 用 的 
功能 集 组 成 。UCON 中 的 权限 可 分 成 许多 功能 类 ,如 审计 类 修改 类 等 。 

授权 规则 是 允许 主体 对 客体 进行 访问 或 使 用 前 必须 满足 的 一 个 需求 集 , 是 用 来 检查 主 
体 是 否 有 资格 访问 客体 的 决策 因素 。 条 件 是 在 使 用 授权 规则 进行 授权 过 程 中 ,人 允许 主体 对 
客体 进行 访问 前 必须 检验 的 一 个 决策 因素 集 。 条 件 是 环境 的 或 面 癌 系统 的 决策 因素 ,可 用 
来 检查 存在 的 限制 ,如 使 用 权限 是 否 有 效 、 哪 些 限 制 必须 更 新 等 。 义 务 是 一 个 主体 在 获得 对 
客体 的 访问 权限 后 必须 履行 的 强制 任务 ,分 配 了 权限 就 应 有 执行 这 些 权 限 的 义务 责任 。 

在 UCON 模型 中 ,授权 规则 、 条 件 、 义 务 与 授权 过 程 相 关 , 它 们 是 决定 一 个 主体 是 否 有 
某 种 权限 能 对 客体 进行 访问 的 决策 因素 。 基 于 这 些 元 素 ,UCON 有 4 种 可 能 的 授权 过 程 ， 
并 由 此 可 以 证 明 : UCON 模型 不 仅 包 含 了 DAC、MAC 和 RBAC, 而 且 还 包含 了 数字 版 权 管 
理 (Digital Rights Management,DRM) 与 信任 管理 等 。UCON 模型 涵盖 了 现代 商务 和 信息 
系统 需求 中 的 安全 和 隐私 这 两 个 重要 的 问题 ,为 研究 下 一 代 访 问 控制 提供 了 一 种 方向 ,被 称 
作 下 一 代 访 问 控 制 模 型 。 

随 着 网 络 和 计算 技术 的 不 断 发 展 ,访问 控制 的 应 用 也 扩展 到 更 多 的 领域 ,比如 操作 系 
统 数据 库 、 无 线 移动 网 络 、 网 格 计算 "以 及 云 计 算 等 。 

以 上 对 传统 访问 控制 进行 了 介绍 ,下 面 将 分 析 云 存储 环境 下 的 访问 控制 与 传统 访问 控 
制 的 区 别 ,从 而 理解 云 计 算 与 云 存 储 环 境 下 对 访问 控制 的 需求 。 


4.1.3. 云 存储 系统 的 访问 控制 


云 计 算 与 云 存 储 作 为 一 种 新 型 的 服务 模式 ,其 虚拟 化 与 多 租户 特征 ,使 用 户 不 仅 失 去 了 
对 物理 设备 的 实际 控制 权 ,而 且 不 知道 与 其 共享 资源 的 实体 是 什么 。 用 户 身 份 认 证 和 数据 
访问 控制 作为 云 计算 与 云 存 储 中 一 道 重要 的 安全 防线 ,能 够 通过 鉴定 身份 .制定 安全 策略 以 
及 基于 加 密 密 钥 等 安全 手段 管理 访问 该 系统 的 用 户 和 数据 内 容 , 以 保证 合法 用 户 能 够 安全 
地 接 和 人 系统 并 获取 想 要 的 数据 文件 ,同时 防止 恶意 攻击 者 进入 系统 对 数据 进行 田 取 或 者 
AA. 

但 与 传统 访问 控制 系统 相 比 , 云 存 储 系统 的 访问 控制 有 以 下 区 别 。 

(OD 传统 用 户 身 份 认 证 和 数据 访问 控制 是 在 服务 器 可 信 的 前 提 下 进行 ,而 云 计算 与 云 
存储 环境 下 用 户 身 份 认证 和 数据 访问 控制 是 在 不 可 信 的 服务 器 模型 下 。 通 常 , 云 服务 器 会 
诚实 地 执行 用 户 的 指令 ,但 在 各 种 利益 驱动 下 ,很 难保 证 云 服务 提供 商 仍 然 诚实 可 信 。 

(2) 云 存 储 环 境 下 用 户 失去 了 对 物理 设备 的 控制 权 , 很 难 实现 用 户 与 云 服务 器 之 间 的 
信任 ,同时 虚拟 化 技术 下 多 租户 特征 可 能 导致 合法 用 户 客 取 同 一 物理 设备 上 其 他 合法 用 户 
的 数据 。 

(3) 云 存 储 环境 下 ,用户 对 数据 的 访问 通常 是 有 选择 性 并 被 高 度 区 分 的 ,不 同 用 户 对 数 
据 享 有 不 同 的 权限 。 传 统 的 访问 控制 是 用 户 在 可 信和 的 服务 器 上 存储 数据 ,而 在 云 存储 环境 
下 ,用 户 和 云 服务 器 不 在 同一 个 可 信 域 内 。 男 外 ,因为 云 服 务 器 不 完全 可 信 , 如 果 服 务 器 被 
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恶意 攻击 者 控制 或 者 存在 内 部 威胁 ,用 户 的 数据 得 不 到 任何 安全 保障 。 因 此 ,必须 利用 云 服 
务 带 的 计算 资源 ,实现 细 粒 度 的 访问 控制 ,保证 云 中 的 数据 、 信 息 流 、 记 录 等 不 被 非法 访问 。 

(4) 云 计算 与 云 存储 是 一 个 动态 的 分 布 式 系统 ,需要 综合 考虑 时 间 \ 位 置 、 云 资源 迁移 
等 因 系 的 影响 ,所 以 访问 控制 模型 要 将 云 计算 与 云 存 储 中 动态 的 因 系 作为 访问 控制 模型 的 
约束 条 件 进行 研究 。 

因此 , 云 计算 与 云 存 储 系统 给 访问 控制 研究 提出 了 新 的 挑战 一 一 如 何 发 展 传统 的 访问 
控制 技术 来 解决 新 型 的 云 存储 安全 问题 。 围 绕 这 个 问题 ,学 术 界 和 产业 界 展开 了 一 系列 的 
研究 ,产业 界 的 主要 解决 方案 是 采取 多 种 访问 控制 技术 相 结 合 或 多 级 访问 控制 的 方式 ,学 术 
界 的 研究 主要 集中 在 如 何 保 护 数据 的 安全 上 ,其 中 包括 : 内 怎样 将 传统 的 访问 控制 模型 应 
用 于 云 存储 系统 ; 书 基 于 密码 技术 实现 细 粒 度 访问 控制 ,比如 加 密 数 据 , 然 后 以 共享 密 钥 的 
方式 对 数据 进行 访问 控制 ,再 比如 使 用 基于 属性 加 密 (ABE) 技 术 实 现 细 粒 度 访问 控制 。 

其 中 基于 加 密 机 制 的 访问 控制 方案 的 研究 成 果 非 常 丰 宦 ,因为 在 云 存储 环境 下 ,为 了 保 
障 数 据 隐私 ,通常 将 数据 加 密 后 再 存放 到 云 服务 禹 上 ; 而 关于 细 粒 度 访问 控制 ,很 多 人 研究 虱 
是 基于 ABE 密码 机 制 。 因此, 下面 将 对 一 些 相 关 理 论 知 识 进行 介绍 ,主要 是 对 基于 属性 加 

此 外 ,虚拟 机 的 访问 控制 技术 通常 通过 一 些 隅 离 手 段 来 实现 。 此 部 分 内 容 在 第 3 章 有 
详细 介绍 ,不 作为 本 草 的 重点 内 容 。 


4.2 相关 理论 知识 


鉴于 目前 的 细 粒 度 访问 控制 技术 大 部 分 是 基于 属性 加 密 技 术 , 因 此 本 节 将 对 相关 理论 
知识 进行 介绍 ,主要 包括 双 线 性 对 、 访 问 结构 和 属性 加 密 机 制 的 发 展 。 


4.2.1 双 线 性 对 


1946 4E, Weil 提出 第 一 个 定义 在 代数 曲线 上 的 可 有 效 计算 的 双 线 性 映射 , 即 Weil 对 ， 
成 为 代数 几何 特别 是 代数 曲线 理论 研究 中 一 个 非常 重要 的 概念 和 工具 。 

2000 年 开始 ,Sakai 4 AU** Al Boneh | AU?) 发现 了 双 线 性 对 在 密码 学 中 的 应 用 价 
值 , 即 能 够 用 来 构造 基于 身份 的 密码 机 制 (Identity Based Encryption. IBE) #l = Jy — $E 4A 
协商 等 。 此 后 , 双 线 性 对 被 用 于 聚合 签名 、 可 验证 加 密 的 签名 、 部 分 盲 签 名 等 。 

由 于 发 现 双 线 性 对 可 以 实现 基于 属性 的 加 密 (ABE)、 上 断言 (或 谓词 ) 加 密 (Predicate 
Encryption, PE) , PR ZA C8 JJ BE JI 2 (Function Encryption,FE) 可 搜索 的 加 密 (Searchable 
Encryption,SE) 等 ,并 且 伴 随 云 计算 技术 的 风 生 水 起 , 双 线 性 对 密码 机 制 逐 渐 成 为 研究 
热点 。 

下 面 对 双 线性 对 的 定义 进行 描述 。 

设 GiG: 和 Gs 23 +n 阶 循环 群 (其 中 nn 可 以 是 素数 ,也 可 以 是 合 数 ), 这 里 考虑 G1、 
G: 和 G, 都 是 乘法 群 ,但 早期 的 双 线 性 对 密码 方案 中 的 G, 和 G 一般 考虑 的 是 加 法 和 群 , 主 
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要 是 因为 用 于 构造 双 线 性 对 的 椭圆 曲 线 群 的 运算 是 加 法 。 

一 个 双 线 性 对 e 就 是 一 个 从 Gi XG, 到 Cs 的 双 线 性 映射 ,满足 如 下 性 质 。 

© 双 线 性 : 设 g1€ Gig; € G; ab € Z,H el gy go D —eCgi +82)". 

« 非 退 化 性 : 对 每 个 gEG1/{1}) ,总 存在 g; € Go E eC(gi.g Fl. 

。 有 效 可 计算 性 : X FEE uv EG ,能 够 在 一 个 多 项 式 时 间 内 计算 e (u,v)。 

利用 椭圆 曲线 或 超 椭圆 曲线 构造 的 双 线 性 对 有 下 面 3 种 类 型 。 

(1) 类 型 1: G,—G; 有 一 个 有 效 可 计算 的 同 构 ,这 时 一 般 可 假定 Gi =G ,这 样 的 双 线 
性 对 也 称 为 对 称 双 线性 对 。 一 般 可 以 用 超 奇 异 椭圆 曲线 或 超 椭 圆 曲 线 来 实现 。 

(2) BM 2. 有 一 个 有 效 计算 群 同 态 G, 一 G1 (AMG, 到 G, 的 有 效 同 态 。 这 类 双 线 
性 对 一 般 用 系数 域 上 的 一 般 椭圆 曲线 实现 ,G, 是 基 域 上 椭圆 曲线 群 ,G, 是 扩 域 上 椭圆 曲线 
子 群 ,G, 到 G, 的 同 态 一 般 取 迹 映射 。 

(3) 类 型 3: 没有 任何 Gi >G: Ù G,—G, 的 有 效 可 计算 的 同 态 ( 同 态 甚至 同 构 一 定 是 
存在 的 ,这 里 是 指 没 有 有 效 计算 的 同 构 )。 这 类 双 线 性 对 也 是 用 素 域 上 的 一 般 曲 线 来 构造 ， 
G 一般 取 迹 映射 的 核 。 

自从 Boneh 等 人 ”提出 了 椭圆 曲线 上 的 双 线 性 映射 后 , 双 线 性 映射 被 广泛 应 用 于 加 
密 、 签 名 等 信息 安全 领域 , 现 有 的 ABE 密码 机 制 也 大 多 基于 双 线 性 映射 来 实现 。 

关于 双 线 性 对 和 双 线 性 映射 , 张 方 国教 授 在 文献 L21j] 中 做 了 详细 的 介绍 。 


4.2.2 访问 结构 


在 基于 属性 的 加 密 算 法 中 ,访问 结构 是 一 种 用 于 描述 访问 控制 宁 略 的 逻辑 结构 。 第 用 
的 访问 结构 有 门限 访问 结构 、 基 于 树 的 访问 结构 ~ 、 基 于 正 负 属性 值 的 “与 ” 门 结构 "…、 
基于 多 属性 值 的 “与 ” 门 结构 ” 支持 通配符 的 基于 多 属性 值 的 “与 ? 门 结构 ”” 和 线性 访问 
结构 523] 。 

基于 门限 的 访问 结构 的 原理 是 : 根据 拥有 不 同属 性 集 的 用 户 到 达 该 门限 所 在 节点 的 路 
径 的 数目 来 决定 是 否 允 许 访 问 。 最 简单 的 访问 结构 是 人 ,2 ) 门 限 访问 结构 ,其 中 7 表示 人 参 
与 者 的 个 数 , 表示 门限 值 。 在 (2z) 门 限 访问 结构 中 ,授权 集合 是 由 上 个 或 者 多 于 + 上 个 参与 
者 构成 的 集合 , 非 授 权 集 合 则 是 少 于 上 个 参与 者 构成 的 集合 。 对 于 (2 ) 门 限 访问 结构 , 当 
且 仅 当 用 户 属 性 集合 和 密 文 属性 集合 的 交集 中 元 素 个 数 满足 门限 上 时 ,用 户 才 能 解密 密 文 。 

在 基于 树 的 访问 结构 中 , 树 的 每 一 个 非 叶 子 节点 由 一 个 门限 值 和 它 的 孩子 节点 来 描述 ， 
而 树 的 每 一 个 叶子 节点 都 对 应 一 个 属性 。 在 基于 正 负 属性 值 的 “与 ” 门 结构 中 ,如 果 一 个 用 
户 拥有 茶 个 属性 , 则 表示 为 正 属 性 ; 如 果 不 用 有 茶 个 属性 , 则 表示 为 负 属性 。 一 个 用 户 能 解 
密 一 个 密 文 , 当 且 仅 当 密 文 的 属性 集合 满足 用 户 的 访问 树 (Access Tree). 

AND 和 OR 操作 可 以 很 容易 地 用 门限 结构 实现 ,如 果 系 统 设置 一 个 门限 为 (1,n), 即 
实现 了 OR 操作 ; 如 果 系 统 设置 门限 为 (n,n), 即 实现 了 AND 操作 。 访 问 树 构建 方法 如 
F: 每 个 非 叶 子 节点 代表 一 个 门限 ,每 个 叶子 节点 代表 一 个 属性 , 当 一 个 属性 与 该 叶子 节点 
属性 相同 时 , 记 为 该 属性 满足 这 个 叶子 节点 。 属 性 集合 满足 一 个 访问 树 的 定义 如 下 : 设 访 
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问 树 是 以 节点 R 为 根 节点 的 树 形 结 构 , 设 对 应 节点 zx PAT, ,如 果 一 个 属性 集合 S 
满足 一 个 子 树 T, , 记 为 T,(S) 二 1; 并 且 当 一 个 子 树 的 孩子 节点 对 应 的 子 树 达 到 该 子 树 节 
点 门限 值 时 ,认为 满足 该 子 树 ……… 如 此 可 以 递归 计算 一 个 属性 集合 是 否 满足 一 个 访问 树 。 
图 数 att(z) 只 对 叶子 节点 有 效 ,表示 与 叶子 节点 x 相关 的 属性 。 如 果 x 是 一 个 非 叶 子 节 
点 ,分 别 计算 z 的 所 有 子 节点 z 的 T.(S) 值 。 当 且 仅 当 至 少 Kx 个子 节点 的 TLCS)=1 
时 ,T.(S) 王 1。 如 果 z 是 一 个 叶子 节点 , 则 当 且 仅 当 att(z)ES 时 T.(S) 王 1。 当 一 个 属 
性 集合 满足 一 个 访问 树 的 时 候 , 系 统 的 某 个 主 秘密 可 以 被 计算 出 来 ,这 样 就 实现 了 基于 密 钥 
策略 属性 的 加 密 。 


4.2.3 基于 属性 加 客机 制 


在 传统 的 访问 控制 系统 中 ,用 户 的 权限 和 所 有 的 数据 都 由 系统 管理 员 来 分 配 和 管理 。 
随 肴 系统 中 用 户 数量 和 数据 量 的 增长 ,以 及 用 户 对 数据 和 个 人 隐私 需求 的 不 断 提 升 ,传统 访 
问 控制 技术 面临 看 管理 复杂 的 难题 。 

基于 属性 的 加 密 (Attributed Based Encryption, ABE) 机 制 可 以 很 好 地 解决 上 述 问题 ， 
其 解决 思路 是 : 系统 中 每 个 权限 可 由 一 个 属性 表示 ,由 一 个 权威 机 构 对 所 有 访问 者 的 权限 
属性 进行 认证 并 颁发 相应 的 密 钥 ,系统 中 的 资源 以 加 密 形 式 保存 在 服务 龙 中 ,加 密 的 访问 策 
略 可 根据 需要 由 资源 发 布 者 来 灵活 制定 ,任何 人 都 能 够 公开 访问 加 密 后 的 资源 ,但 只 有 满 
足 访 问 策 略 的 访问 者 才 可 以 解密 该 资源 。 例 如 ,一 个 用 户 想 要 分 享 一 个 秘密 信息 给 拥有 
属性 AS 且 拥 有 属性 Al 或 A2 的 用 户 ,他 可 以 通过 指定 一 个 形 如 "Al1”or ^ A2" and ^ A3" 
的 布尔 表达 式 作 为 加 密 策 略 来 加 密 秘 密 信 息 , 只 有 满足 此 条 件 表 达 式 的 用 户 才 能 访问 该 
秘密 信息 。 

同时 ,该 方法 有 效 地 解决 了 传统 访问 控制 中 系统 管理 员 管 理 所 有 用 户 权 限 的 问题 , 同 
时 ,服务 硕 并 不 需要 与 每 个 访问 者 交互 ,从 而 提高 了 系统 的 效率 。 

基于 属性 加 密 机 制 是 公 钥 密码 学 和 基于 号 份 的 密码 学 的 一 种 扩展 。 基 于 属性 加 密 把 基 
于 身份 加 密 中 表示 用 户 刁 份 的 唯一 标识 ,扩展 成 由 多 个 属性 组 成 的 属性 集合 ,还 将 访问 结构 
融入 属性 集合 中 ,使 公 钥 密码 体制 具备 了 细 粒 度 访问 控制 的 能 力 , 即 通过 密 文 策略 和 密 钥 策 
略 来 限制 用 户 对 密 文 的 访问 和 解密 能 力 。 

2005 年 ,Sahai 与 Waters 第 一 次 提出 基于 模糊 身份 加 密 的 方案 (Fuzzy Identity-Based 
Encryption, Fuzzy-IBE) ^" ,将 生物 特性 信息 ,如 指纹 .虹膜 等 直接 作为 身份 信息 应 用 于 基于 
号 份 的 加 密 方 案 中 。 在 该 方案 中 ,用 户 的 身份 信息 被 特征 化 为 一 组 属性 ,而 吴 份 的 匹配 关系 
由 原来 的 “完全 匹配 ? 变 为 "相似 匹配 >, 即 对 两 个 由 个 属性 组 成 的 身份 信息 ,只 需要 它们 
之 间 至 少 存在 个 共同 的 属性 即 可 ,而 ?一 上 则 是 对 误差 的 “容忍 值 ”。 他 们 在 论文 中 引入 了 
属性 的 概念 ,发展 了 传统 的 基于 喘 份 密码 体制 关于 身份 的 概念 ,将 身份 看 作 是 一 系列 属性 的 
集合 。 

属性 密码 学 日 诞生 以 来 ,就 成 为 密码 学 领域 一 个 热门 的 研究 方 回 , 得 到 了 快速 发 展 , 在 
分 布 式 文件 管理 .第 三 方 数据 存储 、 日 志 审 计 、 付 费 电视 系统 、 定 问 广 播 加 密 等 领域 有 着 广泛 


的 应 用 。 特 别 是 近 几 年 , 随 着 云 计算 技术 的 发 展 和 日 益 普 及 , 越 来 越 多 的 企业 和 个 人 将 数据 
存储 外 包 给 云 服 务 器 。 针 对 用 户 的 数据 安全 和 隐私 问题 ,属性 密码 学 提供 了 很 好 的 解决 
方案 。 

与 传统 密码 学 相 比 ,属性 密码 学 提供 了 更 加 灵活 的 操作 关系 。 在 属性 加 密 机 制 中 , 密 文 
和 密 钥 都 与 一 组 属性 相关 ,加 密 者 可 根据 要 加 密 的 内 容 和 接收 者 的 特征 信息 制定 一 个 由 属 
性 构成 的 加 密 策 略 ,而 产生 的 密 文 只 有 属性 满足 加 密 策 略 的 用 户 才 可 以 解密 。 属 性 加 密 机 
制 具 有 以 下 4 个 特点 。 

CD 高 效 性 : 加 解密 代价 和 密 文 长 度 仅 与 相应 属性 个 数 相关 , 而 与 系统 中 用 户 的 数量 

(2) 动态 性 : 用 户 能 否 解密 一 个 密 文 仅 取 决 于 他 的 属性 是 否 满足 密 文 的 策略 ,而 与 他 
是 否 在 密 文 生成 前 加 入 这 个 系统 无 关 。 

(3) 灵活 性 : 具体 表现 为 加 密 策 略 可 文 持 复杂 的 访问 结构 ,如 门限 .布尔 表达 式 。 

(4) 隐私 性 : 加 密 者 仅 需 要 根据 属性 加 密 数 据 , 并 不 需要 知道 这 些 属性 所 属 的 用 户 , 即 
解密 者 的 身份 信息 ,从 而 保护 了 用 户 的 隐私 。 

属性 加 密 机 制 极 大 地 丰富 了 加 密 策略 的 灵活 性 和 用 户 权 限 的 可 描述 性 ,以 往 的 一 对 一 
加 解密 模式 被 扩展 成 一 对 多 模式 。 基 于 以 上 良好 性 质 , 属 性 加 密 机 制 可 以 有 效 地 实现 非 交 
互 的 访问 控制 。 

2006 年 ,Goyal 等 人 "在 基于 模糊 身份 加 密 方 案 的 基础 上 提出 了 基于 属性 的 加 密 方 
案 ,并 前 明了 属性 加 蜜 的 概念 和 意义 。 

在 属性 加 密 机 制 中 ,用 户 身 份 信息 被 泛 化 为 用 户 身 份 相 关 的 属性 。 根 据 密 文 和 密 钥 的 
表现 形式 和 应 用 场景 的 不 同 , 可 以 将 其 划分 为 密 钥 策略 属性 基 加 密 (Key-Policy Attribute- 
Based Encryption,KP-ABE) 和 密 文 策略 属性 基 加 密 (Cipher-Policy Attribute-Based Encryption, 
CP-ABE), 

在 文献 [24] 中 ,Goyal 等 人 首次 提出 了 KP-ABE 的 概念 。 它 将 可 描述 的 一 组 属性 与 密 
文 相 联 系 ,解密 密 钥 用 策略 树 来 约束 , 当 访 问 控制 策略 树 能 够 匹配 属性 后 ,解密 者 才能 获取 
解密 密 钥 。 在 KP-ABE 方案 中 ,加 密 方 对 明文 没有 任何 的 控制 权 , 因 此 适合 于 大 规模 网 络 
环境 下 的 密 钥 管理 |。 

2007 年 ,Bethencourt 4& A D^? H T CP-ABE 的 概念 。 在 CP-ABE 中 ,访问 控制 策略 
树 与 密 文 相 联 系 , 解 密 密 钥 用 一 组 可 描述 的 属性 来 约束 , 当 解 密 方 拥 有 的 属性 匹配 策略 树 成 
功 时 才能 获得 解密 密 钥 。 与 KP-ABE 相 比 ,CP-ABE 更 适合 于 大 规模 环境 下 的 访问 控制 。 
在 该 方案 中 ,用 户 的 密 钥 与 属性 集合 相关 , 密 文 和 访问 结构 相关 ,因此 能 够 很 好 地 用 于 云 存 
储 的 密 文 访问 控制 。 目 前 学 术 界 对 ABE 在 云 计算 和 云 存储 环境 下 的 应 用 大 部 分 都 采用 
CP-ABE 算法 。 在 文献 L32] 中 , Pirretti 等 人 提出 在 应 用 CP-ABE 算法 时 扩展 一 个 用 户 属 
性 , 即 为 该 属性 贴 上 一 个 终止 时 间 。 但 该 方案 的 缺陷 是 : 用 户 需 要 周期 性 地 向 认证 中 心 申 
请 私 钥 ,导致 其 效率 较 低 ,并 且 在 终止 时 间 之 前 ,用 户 的 权限 无 法 撤销 。 文 中 ,Pirretti 等 人 
指出 了 属性 加 密 机 制 在 分 布 式 存 储 和 社交 网 络 等 更 广泛 领域 的 应 用 。 
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关于 KP-ABE 5 CP-ABE 两 种 属性 基 加 密 的 区 别 , 房 梁 等 在 文献 L33] 中 进行 了 总 结 。 
设 属性 基 加 窗 方 案 包 括 4 个 多 项 式 算 法 (Setup,Enc,KeyGen,Dec) ,每 个 算法 的 输入 与 输出 
如 表 4-1 所 示 。 


X 4-1 KP-ABE 5 CP-ABE 对 比 


算 法 KP-ABE CP-ABE 


" ”In | 安全 参数 ,属性 空间 与 用 户 空间 大 小 | 安全 参数 ,属性 空间 与 用 户 空间 大 小 
公 钥 参数 PK 


MK .24 PK ,信息 M 
mnm ERB 钥 PK ,信息 M 和 属 X4 MK , 公 钥 PK ,信息 M 和 访问 结构 A 
Enc 性 集合 7 


in HCE CT 
cw， On | EA MK HIRE AOL PK | EES MK ILLE 
FP RL SK 
~ | In | AGL PK, WERE CT REESI D | 公司 PK MERE CT HFAA SK 
ow | 原始 消息 M | 原始 消息 M 


关于 属性 加 密 机 制 的 研究 还 包括 改进 计算 效率 *”” 访问 策略 隐藏 ”和 匿名 身份 验 
证 等 方面 。 

由 于 单 授权 机 构 存 在 不 利于 系统 规模 扩充 及 可 以 获取 用 户 信息 等 问题 ,Chase” 首次 提 
出 多 授权 机 构 属 性 基 加 密 (Multi-Authority Attribute Based Encryption. MA-ABE) 方 案 。 

Lewko fll Waters? E 1 4) fg xt AY) Ji E SE DB (Decentralized ABE) 方 案 , 并 采用 双重 
加 密 的 安全 证 明 方法 证 明了 方案 的 安全 性 。 该 方案 摆脱 了 Chase 方案 BS rp LAY ISI ER 
颈 问 题 。 

为 了 进一步 提高 ABE 方案 的 加 密 、 解 密 计算 效率 ,Guo 5$ AU Even 等 人 “提出 的 
在 线 -离线 (Online-Offline) 签 名 算法 的 局 发 ,首次 提出 了 基于 和 号 份 的 Online-Offline 加 密 方 案 。 

随后 ,Hohenberger 和 Waters? fi] FH Rouselakis 和 Waters' 咎 的 属性 基 加 密 方 案 , 首 次 
提出 了 Online-Offline 属性 基 加 密 方案 。 该 方案 把 所 有 的 配对 操作 移交 到 离线 阶段 去 处 
理 , 从 而 大 大 减少 了 在 线 阶 段 的 计算 开销 。 

虽然 Online-Offline" ”和 转换 密 钥 技术 ”可 以 通过 预 处理 及 外 包 解 密 ”” 的 方式 来 
降低 用 户 端 加 密 和 人 解密 的 计算 开销 ,但 预 处 理 方式 需要 在 离线 加 密 阶 段 确定 访问 结构 ,实际 
上 不 同 数据 的 访问 结构 并 不 相同 ,也 不 便于 提前 确定 ; 外 包 解 密 方式 把 解密 外 包 到 不 完全 
可 信 的 第 三 方 , 不 能 保证 解密 的 正确 性 。Shao 等 人 -所 利用 转换 密 钥 技术 和 在 线 / 离 线 属 性 
加 密 原 语 的 技术 ,提出 了 一 个 应 用 于 移动 云 计算 数据 的 共事 方 案 。 该 方案 可 以 不 用 提前 确定 
访问 结构 ,但 是 用 户 的 属性 集合 只 受到 一 个 属性 授权 机 构 的 管理 ,不 利于 系统 规模 的 扩充 。 

在 文献 L48] 中 , 冯 登 国 等 人 系统 地 论述 了 当前 属性 密码 学 的 研究 现状 和 发 展 趋势 ,并 就 
主流 研究 工作 进行 了 深入 探讨 和 分 析 , 包 括 属性 密码 学 基本 概念 、 可 证 明 安 全 的 方案 和 近年 
来 的 研究 进展 情况 。 苏 金 树 等 人 -所 也 对 属性 基 加 密 机 制 进 行 了 综述 。 
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4.3 云 存 储 系 统 访 问 控制 相关 研究 


纵 观 云 计 算 与 云 存储 的 服务 体系 ,IaaS、PaaS 和 SaaS 都 需要 通过 访问 控制 技术 来 保护 
相关 信息 资源 ,因此 访问 控制 是 贯穿 于 各 层 之 间 的 一 种 安全 技术 。 

各 大 云 计 算 与 云 存 储 服 务 提 供 商 在 构建 云 平台 和 提供 云 服 务 的 过 程 中 也 对 现 有 的 访问 
控制 技术 进行 了 尝试 和 实践 。 本 草 将 从 学 术 界 和 产业 界 两 个 方面 对 目前 云 存 储 环境 下 的 访 
问 控 制 技术 的 研究 和 实践 进行 介绍 。 


4.3.1 研究 概述 


由 于 云 计 算 的 特殊 性 , 云 环境 下 的 访问 控制 技术 较 之 传统 的 访问 控制 技术 更 为 关键 ,用 
户 要 使 用 云 存 储 和 计算 服务 ,必须 要 经 过 云 服 务 商 CSP 的 认证 ,而 且 要 采用 一 定 的 访问 控 
制 策 略 来 控制 对 数据 和 服务 的 访问 。 各 级 提供 商 之 间 需 要 相互 的 认证 和 访问 控制 ,虚拟 机 
之 间 为 了 避免 侧 通道 攻击 ,也 要 通过 访问 控制 机 制 加 以 安全 保障 。 因 此 , 云 计 算 中 的 有 身份 认 
证 和 访问 控制 是 一 个 重要 的 安全 研究 领域 。 

当前 的 研究 主要 集中 在 云 计算 与 云 存 储 环境 下 访问 控制 模型 .基于 密码 学 的 访问 控制 、 
虚拟 机 访问 控制 等 方面 。 

其 中 关于 访问 控制 的 粗细 粒度 的 划分 方法 是 : 把 控制 到 主机 一 级 的 方式 称 为 粗 粒 度 的 
访问 控制 ,把 控制 细 化 到 目录 文件.Web 页 面 一 级 的 称 为 细 粒 度 访问 控制 。 

因为 云 存储 服务 絮 不 完全 可 信和 ,数据 拥有 者 在 将 数据 存储 到 云 服务 副 之 前 ,需要 先 对 其 
进行 加 密 人 处理, 通过 控制 用 户 对 解密 密 钥 的 获取 权限 来 实现 访问 控制 的 目标 。 

为 了 安全 地 分 发 解密 密 钥 给 授权 用 户 , 通 常 使 用 以 下 3 种 方式 。 

(1) 通过 数据 拥有 者 分 发 : 在 这 种 方式 下 , 云 服 务 需 在 任何 情况 下 都 不 接触 任何 形式 
的 密 钥 , 因 此 安全 性 较 高 ,不 过 要 求 数据 拥有 者 一 直 在 线 。 

(2) 将 密 钥 加 密 后 通过 云 服 务 硕 分 发 : 密 钥 经 加 密 后 存放 在 云 中 ,数据 共享 者 访问 数 
据 时 需要 先 从 云 中 获取 到 数据 密 文 和 加 密 后 的 密 钥 ,然后 通过 某 种 约定 的 方式 解密 密 钥 , 然 
后 解密 数据 。 也 即 通常 所 说 的 基于 密码 学 的 访问 控制 方式 ,这 是 云 计 算 与 云 存 储 环 境 下 最 
常用 的 方式 。 

(3) 通过 第 三 方 机 构 进 行 分 发 : 该 方式 结合 以 上 两 种 方式 的 优点 ,但 对 应 用 场景 的 依 
赖 较 强 ,因此 大 都 出 现在 某 些 特定 的 应 用 中 。FADE"" 系统 和 Corslet 系统 使 用 一 个 可 
信 的 第 三 方 服 务 帮 来 集中 管理 密 钥 。 

基于 密码 学 的 访问 控制 方案 的 安全 性 依赖 于 密 钥 的 安全 性 ,从 而 可 以 用 于 不 可 信 的 云 
计算 与 云 存 储 环境 。 该 方案 通过 加 密 数 据 ,控制 用 户 对 密 钥 的 获取 来 实现 访问 控制 ,使 只 有 
具备 相应 密 钥 的 授权 人 员 才 能 解密 密 文 。 

根据 采用 的 密码 学 算法 ,基于 密码 学 的 访问 控制 方案 可 以 划分 如 下 。 

(OD 基于 对 称 密码 算法 的 访问 控制 方案 : 该 方案 主要 采用 选择 加 密 (Selective Encryption) 
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实现 。 

(2) 基于 非 对 称 密码 算法 的 访问 控制 方案 : 分 为 单一 加 密 策 略 和 混合 加 密 策 略 两 种 ， 
其 中 单一 加 密 策 略 主要 包括 基于 属性 的 加 密 和 基于 代理 重 加 密 , 基 于 混合 加 密 策略 方案 将 
多 种 加 密 策 略 结合 起 来 用 于 实现 访问 控制 。 

根据 以 上 分 类 ,下文 将 对 这 些 访问 控制 方案 进行 详细 介绍 ,从 基于 对 称 密码 的 访问 控 
制 、 基 于 属性 加 密 的 访问 控制 .产业 界 的 实践 到 其 他 相关 研究 。 


4.3.2 基于 对 称 密码 的 访问 控制 


密 文 访问 控制 的 概念 最 早 由 Kallahalla 等 人 "提出 ,他 们 首次 将 访问 控制 的 安全 性 建 
立 在 密 钥 安全 的 基础 上 。 他 们 提出 一 个 不 可 信和 存储 环境 下 的 安全 文件 共享 系统 Plutus ,该 
系统 采用 了 双 层 加 密 机 制 , 每 个 文件 都 会 采用 一 个 对 称 密 钥 加 密 ,在 共享 时 这 些 文件 会 被 
组 织 为 “组 ”, 并 产生 一 个 组 密 钥 负责 对 每 个 文件 的 加 密 密 钥 进行 加 密 。 文 件 密 文 和 对 应 
的 加 密 密 钥 的 密 文 被 存储 在 不 可 信 的 存储 服务 器 上 ,而 组 密 钥 则 被 单独 分 发 给 需要 共享 
的 用 户 。 

Plutus 里 面 提出 的 基本 概念 被 很 多 的 后 续 研 究 者 利用 ,但 是 随 着 “组 ”的 增长 ,其 密 钥 
数量 也 将 线性 增长 。 针 对 这 个 问题 ,Ateniese 等 人 5 提出 了 基于 代理 重 加 密 技 术 的 访问 控 
制 方案 。 代 理 重 加 密 的 概念 由 Blaze 等 人 -在 1998 年 提出 , 即 一 个 代理 可 以 利用 由 Alice 
生成 的 代理 重 加 密 密 钥 ,将 由 Alice 公 钥 加 密 的 密 文 直 接 转 换 为 用 Bob 私 钥 可 以 解密 的 密 
文 , 并 且 代 理 不 能 获得 关于 密 文 所 对 应 明文 的 任何 信息 。 在 Ateniese 等 人 的 方案 中 ,将 每 
个 文件 用 对 称 密 钥 加 密 ,再 将 该 加 密 密 钥 用 文件 属 主 的 主 密 钥 加 密 。 文 件 属 主 在 进行 文件 
分 享 时 ,需要 用 自己 的 主 密 钥 与 目的 用 户 的 公 钥 一 起 产生 一 个 代理 重 加 密 密 钥 ,而 服务 器 将 
利用 该 代理 重 加 密 密 钥 对 密 文 进 行 转换 ,使 得 密 文 只 有 目的 用 户 才能 解密 。 

这 些 研 究 工 作 虽 然 一 定 程度 上 满足 了 数据 在 缺少 可 信任 机 构 的 环境 下 的 访问 控制 需 
求 , 但 要 实现 细 粒 度 和 灵活 的 访问 控制 ,其 密 钥 管理 非常 复杂 且 计 算 开 销 也 很 大 。 

基于 对 称 密 码 算 法 的 云 计算 与 云 存 储 环境 下 的 访问 控制 模型 的 架构 如 图 4-1 所 示 。 通 
常 包 括 3 个 实体 : 数据 拥有 者 、 用 户 和 云 存 储 服务 器 。 数 据 拥 有 者 将 加 密 文 件 和 用 于 实现 
访问 控制 的 公开 信息 存储 于 云 服务 器 ,用 户 可 随时 将 存储 于 云 服 务 器 的 加 密 文 件 和 公开 信 
息 下 载 至 本 地 ,这 样 数据 拥有 者 就 不 用 一 直 在 线 。 


EN 


下 载 加 密 文件 和 让 


公开 信息 2 


HAHP n 


o EL 


MESE HAE aE EA 


公开 信息 1 窗 数 据 集 MERS 


数据 拥有 者 


图 4-1 基于 对 称 密码 算法 的 访问 控制 模型 
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在 上 一 小 节 介 绍 了 基于 对 称 密码 的 访问 控制 主要 利用 选择 加 密 (Selective Encryption) 
算法 实现 。 为 了 实现 对 加 密 数 据 的 访问 控制 ,最 直接 的 方法 就 是 将 文件 加 密 密 钥 分 发 给 每 
一 个 被 授权 的 用 户 ,但 是 这 将 给 数据 拥有 者 市 来 繁重 的 密 钥 管理 开销 。 选 择 加 密 采 用 对 称 
密 钥 推导 图 的 形式 进行 密 钥 分 发 ,可 有 效 减 轻 数 据 拥 有 者 的 密 钥 管理 负担 。 

2007 年 ,Vimercati 等 人 -55 首次 提出 选择 加 密 采 用 不 同 的 对 称 密 钥 加 密 不 同 的 文 
件 , 将 具有 相同 授权 用 户 的 文件 采用 同一 对 称 密 钥 加 密 。 每 个 共享 数据 的 用 户 只 需要 保 
存 一 个 对 称 密 钥 作为 用 户 密 钥 ,选择 加 密 根 据 访 问 控制 策略 生成 的 密 钥 推导 图 进行 密 钥 

密 钥 推导 图 一 般 由 硅 干 项 点 和 硅 干 有 问 边 组 成 ,由 有 同 边 的 出 发 项 点 的 项 点 密 钥 可 推 
导出 终端 顶点 的 顶点 密 钥 。 数 据 拥 有 者 将 每 个 共享 用 户 和 每 个 文件 的 授权 用 户 集 合 视 为 密 
钥 推 导 图 中 的 一 个 顶点 ,利用 访问 用 户 集合 的 包含 关系 生成 密 钥 推导 图 。 

为 了 将 密 钥 推导 图 中 的 密 钥 推导 关系 转换 为 用 于 密 钥 分 发 的 公开 信息 ,数据 拥有 者 首 
先 为 每 个 密 钥 分 配 一 个 标签 ,并 为 每 条 有 问 边 生成 一 个 对 应 的 令 牌 。 令 牌 包括 3 个 部 分 : 
密 文 、 密 文 的 解密 密 钥 的 标签 和 解密 密 文 后 可 获取 的 密 钥 的 标签 。 

为 了 让 共享 用 户 快 速 找到 获取 目标 密 钥 的 令 牌 路 径 ,数据 拥有 者 还 将 生成 一 个 用 户 密 
钥 标 签 列表 和 文件 解密 密 钥 标签 列表 。 数 据 拥 有 者 将 用 户 密 钥 标 签 列 表 、 文 件 解密 密 钥 标 
签 列 表 和 令 牌 列表 作为 公开 信息 存储 在 云 存 储 服务 硕 上 ,使 共享 用 户 可 根据 其 用 户 密 钥 和 
公开 信息 推导 出 其 访问 权限 范围 内 的 文件 的 解密 密 钥 。 

因为 全 部 基于 对 称 密码 技术 ,选择 加 密 算 法 成 为 一 种 具有 细 粒 度 访问 控制 、 密 钥 管 理 计 
算 开 销 小 、 密 钥 分 发 效率 高 的 适用 于 云 存 储 服 务 的 访问 控制 机 制 。 

但 是 ,由 于 选择 加 密 机 制 的 公开 信息 可 以 被 任何 人 读 取 ,攻击 者 可 利用 公开 信息 恢复 出 
密 钥 推导 图 ,从 而 得 到 数据 拥有 者 的 访问 控制 策略 。 

此 后 ,Vimercati AY Al Jiang 等 人 ”在 将 选择 加 密 用 于 外 包 数 据 安全 方面 做 了 一 
系列 的 研究 工作 ,文献 L58j 实 现 了 同时 赋予 的 用 户 读 写 权限 方案 ,文献 L60j 提 出 了 一 种 双 头 
层 结 构 , 可 实现 访问 控制 策略 的 高 效 更 新 。 

最 近 , 雷 蕾 等 人 "提出 了 一 个 支持 策略 隐藏 的 基于 选择 加 密 的 云 存储 访问 控制 方案 。 
该 方案 采用 Vimercati 等 人 “提出 的 方法 生成 密 钥 推 导 图 ,等 价 于 访问 控制 策略 。 首 先 ， 
数据 拥有 者 将 具有 相同 授权 用 户 的 文件 采用 同一 对 称 密 钥 加 密 , 将 具有 不 同 授 权 用 户 的 文 
件 采 用 不 同 的 密 钥 加 密 ,并 将 加 密 文件 上 传 到 云 存 储 服 务 融 。 方 案 中 ,为 每 个 文件 设置 一 个 
唯一 的 文件 序列 号 ,使 得 云 服务 硕 和 攻击 者 不 能 根据 文件 序列 号 列表 判断 哪些 文件 具有 相 
同 的 授权 用 户 集 , 从 而 实现 了 文件 权限 信息 的 隐藏 。 但 他 们 也 指出 , 云 服 务 右 可 以 通过 记录 
每 个 共享 用 户 的 存 取 记录 来 获取 数据 拥有 者 的 访问 控制 策略 ,但 是 可 以 通过 随机 存 取 方 法 
加 以 解决 。 


4.3.3 基于 属性 加 蜜 的 访问 控制 
根据 4. 2. 3 小 节 对 基于 属性 加 密 机 制 的 介绍 ,基于 属性 加 密 机 制 按照 用 户 的 属性 来 进 
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行 访问 控制 ,只 有 满足 特定 属性 的 用 户 才 能 解密 密 文 ,用 户 能 否 解 密 一 个 密 文 仅 取决 于 他 的 
属性 是 否 满 足 密 文 的 策略 ,而 与 他 是 否 在 密 文 生成 前 加 入 这 个 系统 无 关 。 而 且 服 务 器 并 不 
需要 与 每 个 用 户 交 互 , 从 而 提高 了 系统 的 效率 。 其 高 效 性 动态 性 .灵活 性 和 隐私 保护 特性 
使 得 它 特别 适合 于 云 存 储 环境 下 的 细 粒 度 访问 控制 。 

同时 ,基于 属性 加 密 机 制 具有 很 强 的 安全 性 。 

(1) 大 部 分 基于 属性 加 密 算法 基于 椭圆 曲线 上 的 双 线 性 对 ,从 密码 学 理论 上 破译 密码 
是 不 可 能 的 。 

(2) 基于 属性 加 密 算法 与 一 个 访问 结构 相关 联 实 现 访问 控制 ,其 访问 结构 的 复杂 性 ,使 
得 攻击 者 难以 将 其 简单 地 与 一 个 困难 性 问题 结合 模拟 攻击 过 程 ,从 而 使 得 挑战 密 文 是 困 
难 的 。 

(3) 基于 属性 加 密 算法 的 私 钥 具 有 一 定 的 属性 ,不 同 的 私 钥 属 性 集合 可 能 具有 相关 的 
属性 , 私 钥 的 相关 性 让 模拟 私 钥 提 取 变 得 困难 。 

基于 属性 加 密 机 制 在 云 计 算 与 云 存 储 环 境 下 的 访问 控制 模型 的 架构 如 图 4-2 所 示 。 通 
常 包括 4 个 实体 : 数据 拥有 者 .用户 、 云 存储 服务 器 和 可 信 授 权 中 心 。 首 先 由 可 信 授 权 中 心 
生成 主 密 钥 和 公开 参数 ,将 系统 公 钥 传送 给 数据 拥有 者 ,数据 拥有 者 利用 系统 公 钥 和 访问 结 
构 对 文件 或 文件 加 密 密 钥 进行 加 密 ,将 密 文 和 访问 结构 存放 到 云 服务 器 。 当 有 新 用 户 加 入 
系统 ,就 将 其 属性 集 传送 给 可 信和 授权 中 心 , 并 请 求 私 钥 , 可 信和 授权 中 心 根据 用 户 的 属性 集 和 
主 密 钥 生成 用 户 私 钥 发 送 给 用 户 。 用 户 需 要 访问 数据 时 ,如 果 其 属性 集 满足 密 文 的 访问 结 
构 策 略 ,就 可 以 解密 密 文 。 此 架构 中 的 可 信和 授权 中 心 可 以 是 已 有 的 公 钥 基础 设施 (Public 
Key Infrastructure, PKD P WJ Žr WE BAHELA (Certificate Authority. CA) 。 


可 信 授 权 中 心 


Eg 
* 2 


AQ 访问 请 求 共享 用 户 1 


EX P 
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共享 用 户 n 


上 传 密 文 
访问 策略 
数据 拥有 者 


4-2 基于 属性 加 密 机 制 的 访问 控制 模型 


而 关于 访问 结构 ,可 以 是 一 个 布尔 表达 式 (Boolean Expression) ,也 可 以 是 一 个 门限 树 。 
如 图 4-3 所 示 是 一 个 简单 的 访问 结构 ,根据 逻辑 表达 式 “ 部 门 : 销售 ”or(“ 部 门 : IT”and“ 地 
点 : 办 公 室 ”) 来 判断 一 个 用 户 的 属性 是 否 满足 该 表达 式 , 从 而 决定 是 否 人 允许 用 户 访 问 数据 。 

近 几 年 来 ,关于 属性 加 密 在 云 计 算 与 云 存 储 环境 中 实现 访问 控制 的 研究 主要 包括 3 个 
方面 : 山 实现 细 粒 度 访 问 控制 ; 包 关 于 用 户 属 性 与 权限 的 撤销 ; BB 多 授权 中 心 Multi- 
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BEL]: IT， 地 点 : 办 公 室 
允许 访问 


部 门 : 销售 ， 地 点 : 家 


@ vr 


部 门 : IT， 地 点 : 家 


4-3 一 个 简单 的 访问 结构 


Authority) 方 案 。 

Anuchart 等 人 “提出 了 一 种 基于 OAuth 标准 和 CP-ABE 的 授权 方案 AAuth。AAuth 提 
供 端 到 端 加 密 和 基于 ABE 的 令 牌 ,使 得 数据 拥有 者 和 授权 中 心 都 可 以 对 云 服务 器 上 的 数据 
进行 认证 , 当 处 于 不 可 信 的 云 存储 环境 时 ,数据 拥有 者 可 以 控制 自己 的 数据 。 

孙 国 梓 等 人 "提出 基于 CP-ABE 的 云 存 储 数据 安全 访问 控制 方案 ,该 方案 将 公 钥 和 私 
钥 形式 化 为 读 写 权限 ,然后 通过 设计 密 钥 来 进行 访问 控制 。Ruj 和 等候 提出 了 一 种 实现 隐 
私 保护 的 云 数据 访 问 控制 框架 ,该 框架 要 求 数据 拥有 者 在 将 数据 存放 到 云 服务 需 之 前 进行 
认证 ,然后 用 户 就 可 以 对 数据 使 用 ABE 加 密实 现 数据 的 访问 控制 。Zhu 等 人 "提出 一 种 
有 效 地 使 用 ABE 实现 RBAC 访问 控制 的 云 数 据 加 密 方 案 。Wan 等 人 “提出 一 种 分 层 的 
基于 CP-ABE 的 访问 控制 方案 HASBE, 利 用 分 层 结构 解决 灵活 性 与 扩展 性 问题 。Wang 等 
人 中 提出 了 一 种 将 两 个 低层 次 文件 合并 成 高 层次 文件 的 基于 属性 加 密 的 分 层 访问 控制 
方案 。 

如 何 防 止 用 户 滥 用 密 钥 , 即 如 何 追 踊 那 些 公 开 自 己 密 钥 的 用 户 的 问题 ,也 有 一 些 研 究 工 
VE. Liu 等 人 “中 分 别 在 白 盒 和 黑 盒 追踪 场景 下 给 出 了 一 些 方案 ,但 所 提出 的 方案 的 公共 
参数 和 代价 都 与 系统 用 户 数 量 相 关 。 如 何 设计 与 系统 用 户 数 量 不 相关 的 可 追 踊 审 计 方 案 是 
需要 解决 的 问题 。Ning 等 人 "在 这 个 方面 做 了 一 些 研究 工作 。 

云 存储 服务 中 用 户 权 限 撤 销 一 直 是 一 个 比较 困难 的 问题 ,可 能 涉及 数据 的 重 加 密 和 权 
限 的 重新 分 配 等 问题 。 在 基于 属性 加 密 算法 的 访问 控制 模型 中 ,就 涉及 用 户 属性 的 撤销 。 
通过 撤销 用 户 的 某 些 属性 ,而 让 用 户 不 能 访问 指定 数据 。 

在 最 早 的 文献 L[24,32] 中 ,给 出 的 一 个 解决 思路 是 : 通过 给 每 个 用 户 分 配 一 个 终止 时 间 
的 属性 ,在 此 时 间 过 期 后 ,该 用 户 的 权限 就 被 撤销 。 

为 了 减 小 密 钥 更 新 的 开销 ,Sahai 等 人 中 提出 一 种 基于 二 又 树 的 方案 ,将 每 个 用 户 设 置 
为 与 二 又 树 的 叶 节 点 相关 ,使 得 密 钥 更 新 数量 与 用 户 数 量 呈 对 数 关 系 。 该 方案 结合 “ 密 文 委 
JK” (Ciphertext Delegation) 提 出 一 种 高 效 的 可 撤销 的 属性 加 密 方 案 。 在 该 方案 中 ,权威 机 
构 只 需要 定期 发 送 一 个 更 新 密 钥 的 广播 , 即 可 完成 密 钥 的 更 新 ,并 不 需要 用 户 与 权威 机 构 间 
进行 交互 或 存在 安全 信道 。 但 这 种 方案 也 是 一 种 “All-or-Nothing”( 要 么 全 有 ,要 人 么 全 无 ) 的 
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方案 ,而 实际 应 用 中 ,有 了 时 只 需要 对 用 户 属 性 进行 细 粒 度 撤销 而 不 是 撤销 用 户 所 有 权限 ,用 
户 身份 的 变化 导致 其 不 再 拥有 某 个 属性 ,而 非 撤销 所 有 的 属性 。 还 有 一 种 撤销 称 之 为 “直接 
撤销 ”, 巾 一 个 可 信 第 三 方 公布 撤销 用 户 的 名 单 , 用 户 在 加 密 时 直接 排除 被 撤销 用 户 来 进行 
撤销 。 文 献 L74-76] 都 针对 细 粒 度 权 限 撤销 问题 进行 了 深入 研究 和 探索 ,取得 了 一 些 重要 进 
展 ,但 在 效率 方面 还 有 待 于 进一步 提升 和 改进 。 

当前 的 CP-ABE 有 一 个 缺点 , 即 “All-or-Nothing”, 要 么 授予 全 部 权限 ,要么 就 什么 权 
限 也 不 给 。 有 鉴于 此 ,Ning 等 “首次 提出 一 个 基于 审计 中 心 和 可 撤销 CP-ABE 的 云 存 储 
系统 CryptCloud+ ,使 其 具有 白 盒 可 追溯 与 审计 功能 。 该 方案 通过 修改 密 钥 生成 算法 ,在 
其 中 加 入 审计 列表 ,以 检测 用 户 是 否 修改 了 保密 密 钥 的 标签 ,从 而 实现 可 追溯 与 审计 功能 。 

Liang 等 人 5 提出 一 种 基于 属性 的 代理 重 加 密 方案 (Attribute-based Proxy Re- 
Encryption, ABPRE) ,通过 一 个 代理 将 密 文 从 一 种 访问 结构 策略 转换 为 另 一 种 访问 结构 策 
略 的 密 文 , 从 而 实现 权限 撤销 的 目的 。 洪 港 等 人 "提出 利用 CP-ABE 算法 实现 密 文 访问 控 
制 ,通过 私 钥 属性 和 密 文 属 性 的 匹配 关系 确定 解密 能 力 , 简 化 了 数据 共享 中 的 密 钥 管 理 。 

Yu 等 人 "提出 了 一 种 将 CP-ABE 与 代理 重 加 密 结 合 可 实现 属性 撤销 的 方案 ,该 方案 
假定 云 服务 器 是 部 分 可 信 的 ,数据 拥有 者 将 部 分 工作 交 给 云 服务 器 执行 ,只 是 该 方案 中 访问 
结构 只 支持 “and” 门 限 。 在 文献 [81] 中 ,他 们 提出 一 种 基于 KP-ABE 的 云 计算 环境 下 的 细 
粒度 的 访问 控制 方案 ,并 利用 重 加 密 技术 实现 了 有 效 的 用 户 撤销 机 制 。 在 该 方案 中 ,使 用 一 
个 对 称 密 钥 加 密 文件 ,对 属性 集合 中 的 每 一 个 属性 ,在 密 文中 增加 一 个 元 素 ,在 解密 过 程 中 ， 
这 个 元 素 将 被 用 来 恢复 文件 加 密 密 钥 。 该 方案 结合 KP-ABE .代理 重 加 密 和 延迟 重 加 密 等 
多 种 加 密 技术 ,是 一 种 基于 混合 加 密 策略 的 方案 。Tang 等 人 "提出 了 一 种 将 CP-ABE, E 
解密 和 秘密 共享 结合 的 访问 控制 方案 。Liu 等 人 "提出 了 一 种 细 粒 度 、 基 于 时 间 及 时 更 新 
密 文 的 访问 控制 方案 。 

基于 属性 加 密 算法 的 访问 控制 在 进行 授权 时 ,用 户 的 每 个 属性 需 向 可 信 授 权 中 心 获得 
签名 私 钥 ,因此 需要 单个 授权 中 心 管理 大 量 属性 ,从 而 导致 其 工作 量 极 大 ,可 能 会 让 授权 过 
程 效率 低下 。 多 授权 中 心 可 以 由 不 同 的 认证 中 心 来 认证 每 个 用 户 的 属性 并 保存 访问 结构 ， 
但 需要 一 个 可 信 的 授权 中 心 来 管理 和 约束 其 他 授权 中 心 。 

Chase"* 最 早 提出 多 授权 中 心 的 概念 ,并 提出 一 种 多 授权 中 心 的 基于 属性 的 加 密 方案 。 
基于 该 加 密 方案 ,他 又 首次 提出 一 种 多 授权 中 心 的 基于 属性 的 签名 方案 。 为 了 防止 授权 中 
心 盗用 私 钥 ,只 让 每 个 授权 中 心 控制 一 部 分 属性 ,从 而 能 够 抵抗 伪造 与 合谋 攻击 。 该 签名 方 
案 可 以 保护 签名 者 的 私密 信息 ,并 具有 较 高 的 签名 效率 。 

Ruj - JOE Tiv 了 一 种 分 布 式 密 钥 分 发 中 心 (Key Distribution Center, K.DQ) 的 方案。 

Yang 等 人 -提出 了 一 种 云 存 储 系 统 中 的 多 授权 中 心 访 问 控制 模型 。 在 系统 中 ,为 每 
个 用 户 分 配 一 个 唯一 的 用 户 标 识 符 (UID) 和 一 个 唯一 的 授权 标识 符 (AID) ,UID 和 AID 都 
由 可 信和 的 证 书 颁发 机 构 (CA) 签 发 。 为 了 防止 多 个 用 户 合谋 来 访问 数据 ,被 CA 认证 过 的 
UID 要 和 密 钥 一 起 使 用 才能 对 数据 进行 解密 。 随 后 ,他 们 又 提出 了 一 种 云 存 储 系统 中 的 多 
授权 中 心 的 访问 控制 方案 DAC-MACS ,该 方案 使 用 基于 令 牌 的 方法 来 管理 各 个 授权 中 
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心 ,并 实现 了 高 效 的 属性 撤销 。 此 后 ,他们 还 对 相关 问题 进行 了 进一步 的 研究 。 

Liu 等 人 "提出 了 一 种 云 计 算 系 统 中 外 包 数 据 的 层次 化 的 基于 属性 的 访问 控制 方案 ， 
该 方案 在 CP-ABE 的 基础 上 加 入 了 属性 基 签 名 (Attribute Based Signature, ABS) ,将 多 授 
权 中 心 分 层 管理 ,每 层 授 权 中 心 完 成 不 同 的 功能 ,实现 权限 授予 和 粗 粒 度 的 资源 访问 控制 。 

仲 红 等 ”提出 了 一 种 高 效 的 可 验证 的 多 授权 中 心 的 基于 属性 加 密 的 云 存储 数据 访问 
控制 方案 ,该 方案 不 仅 可 以 降低 加 密 、 解 密 的 计算 开销 ,同时 可 以 验证 外 包 解 密 的 正确 性 并 
且 保 护 用 户 隐 私 。 他 们 提出 的 在 线 -离线 的 多 授权 机 构 属 性 基 加 密 (Online/Offline Multi- 
Authority Attribute Based Encryption ,OO-MA-ABE) 方 案 把 用 户 端 在 线 计 算 代 价 转 移 到 
离线 阶段 或 者 云 服务 器 上 ,从 而 大 大 降低 了 用 户 端的 在 线 计算 开销 。 在 加 密 阶 段 ,用 户 利用 
加 密 密 钥 和 明文 生成 哈 布 值 作为 数据 的 验证 令 牌 ; 在 进行 解密 时 ,用 户 利用 验证 令 牌 验证 
解密 结果 的 正确 性 ,从 而 检验 云 存 储 服务 更 解密 是 否 正 确 。 同 时 ,该 方案 可 以 抵抗 单个 授权 
机 构 获 取 用 户 的 身份 信息 ,保证 了 用 户 身 份 隐 私 。 

此 外 ,文献 L91,92] 也 是 关于 多 授权 中 心 的 基于 属性 加 密 的 访问 控制 方案 。 在 云 计算 与 
云 存储 系统 中 ,使 用 基于 属性 加 密 算法 实现 访问 控制 的 研究 工作 非常 丰富 ,文献 L93-97] 都 
给 出 了 非常 好 的 解决 方案 。 


4.3.4 产业 界 的 实践 


各 大 云 服 务 提供 商 也 采用 了 不 同 的 访问 控制 机 制 对 日 己 的 云 平台 提供 安全 文 持 , 下 面 
将 对 亚马逊 、 微 软 、 谷 歌 和 百度 等 几 个 主流 的 开源 云 平台 进行 简单 介绍 。 

Amazon( 亚 马 逊 ) 的 云 存储 服务 平台 提供 Amazon 简单 存储 服务 (Amazon Simple 
Storage Service. S3) ,个 人 或 企业 用 户 可 以 将 自己 的 数据 存放 到 S3 云 平台 上 去 。 

S3 将 每 个 数据 对 象 存储 在 称 为 桶 (Bucket) 的 容器 中 进行 管理 ,不 仅 控 制 用 户 对 数据 对 
象 的 操作 ,包括 读 、 写 .删除 等 ,也 会 控制 用 户 对 Bucket 的 操作 ,包括 罗列 对 象 .增加 、 移 除 对 
RF. Amazon 访问 控制 方式 有 4 种 ,分别 介 绍 如 下 。 

(1) Amazon 身份 与 访问 管理 (Identity and Access Management. IAM); 通过 在 
Amazon 账户 之 下 创建 多 个 用 户 ,为 每 个 用 户 分 配 相 应 的 安全 凭证 以 管理 他 们 的 权限 。 针 
对 特殊 权限 用 户 ,还 可 以 采用 多 因素 认证 技术 (Multi-Factor Authentication) ,并 支持 以 便 
件 为 基础 的 验证 工具 。 

(2) 访问 控制 列表 (Access Control List, ACL): 基于 用 户 号 份 与 资源 的 权限 ,以 数据 
对 象 和 桶 为 中 心 ,定义 哪些 用 户 能 够 访问 哪些 对 象 和 桶 。 

(3) 桶 策略 (Bucket Policy) : 桶 策略 不 仅 可 以 控制 访问 桶 的 用 户 , 还 可 以 控制 特定 源 
IP 地 址 的 访问 。 此 外 , 桶 策略 可 以 实现 让 其 他 账户 上 传 数据 对 象 到 桶 中 ,以 实现 跨 账 户 的 
权限 控制 。 

(4) 查询 字符 串 身 份 认证 : 该 机 制 利 用 URL 与 其 他 用 户 共 享 数 据 对 象 时 ,通过 在 
URL 中 附加 签名 和 有 效 期 来 访问 共享 数据 。 

Microsoft Azure, 即 微软 云 是 托管 于 Microsoft 公有 云 数据 中 心 的 云 平 台 , 由 基础 结构 
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和 应 用 程序 服务 组 成 ,并 且 集 成 了 数据 服务 .高 级 分 析 以 及 开发 人 员工 具 和 服务 ,提供 从 基 
本 计算 、 网 络 和 存储 ,到 移动 和 Web 应 用 服务 ,再 到 物 联 网 等 的 完整 云 方案 。 

Microsoft Azure 的 访问 控制 管理 机 制 包 括 以 下 几 个 方面 。 

(1) Azure 多 因素 认证 (Azure Multi-Factor Authentication): 基于 多 种 因素 ,如 使 用 移 
动 应 用 、 手 机 或 短信 验证 登录 等 可 选 方式 进行 认证 ,并 且 使 用 安全 性 监视 和 机 器 学 习 式 报告 
来 识别 不 一 致 的 登入 模式 ,提供 较 好 的 企业 级 安全 性 。 为 了 降低 潜在 的 威胁 ,提供 即时 警报 
回 IT 部 门 通 知 可 疑 的 账号 认证 。 

(2) Azure Active Directory (Azure AD): 为 混合 企业 中 的 每 个 用 户 创 建 和 管理 单一 
标识 ,从 而 保持 用 户 .组 和 设备 同步 。 它 提供 对 应 用 程序 (包括 数 千 个 预先 集成 的 Saas 应 
用 ) 的 单一 登录 访问 。Azure AD 在 其 目 己 受 保 护 的 容 需 中 托管 每 个 租户 ,使 用 的 策略 和 权 
限 仅 针对 各 租户 单独 拥有 和 管理 的 容 希 ,并 保存 在 该 容 硕 内 。 使 用 Azure AD 管理 用 户 标 
识 和 和 凭据 以 及 控制 访问 ,帮助 保护 企业 信息 和 个 人 信息 。 

(3) Azure Privileged Identity Management(PIMO : 为 了 满足 诊断 和 维护 需求 ,需要 使 
用 采用 实时 特权 提升 系统 的 操作 模型 。 因 为 权限 过 多 ,可 能 会 癌 攻 击 者 公开 账户 ; 而 如 果 
权限 太 少 ,员工 无 法 有 效 完 成 工作 。 面 问安 全 的 公司 应 侧重 于 加 员工 提供 他 们 所 需 的 确切 
权限 ,PIM 就 可 以 实现 这 一 点 。PIM 引入 了 有 资格 管理 员 的 概念 ,有 资格 管理 员 应 是 不 时 
(但 不 是 每 天 ) 需 要 特权 访问 的 用 户 。 该 角色 处 于 非 活 动 状态 ,直到 用 户 需 要 访问 权限 ,然后 
他 们 完成 激活 过 程 , 并 在 预定 的 时 间 内 成 为 活动 管理 员 。 

(4) Azure 基于 角色 的 访问 控制 (RBAC): 使 用 RBAC, 可 以 在 团队 中 对 职责 进行 分 
配 , 仅 回 用 户 授予 执行 作业 所 需 的 访问 权限 。 例 如 ,使 用 人 RBAC 允许 一 个 员工 管理 云 服务 
的 虚拟 机 ,而 允许 另 一 个 员工 管理 同一 云 服 务 中 的 SQL 数据 库 。 

Google 云 通 过 用 户 账 号 进行 访问 控制 , 云 平台 为 每 个 用 户 提 供 一 个 唯一 的 用 户 ID ,并 
给 每 个 用 户 分 配 相应 的 权限 ,也 以 此 来 识别 每 个 用 户 在 Google 云 的 活动 记录 。 

桶 是 Google 云 存储 中 存放 数据 的 最 基本 容 希 ,Google 利用 桶 来 组 织 数据 ,所 有 数据 存 
放 在 桶 中 。Google 云 存储 提供 了 两 种 访问 控制 机 制 : 

(1) 访问 控制 列表 (ACL): Google ZW ACL 中 ,主要 有 读 、 写 .完全 控制 3 种 级 别 的 权 
限 。 在 桶 和 对 象 的 拥有 者 未 指定 桶 和 对 象 的 ACL 时 ,系统 会 使 用 默认 的 ACL 来 控制 用 户 
访问 。 所 有 桶 默认 其 拥有 者 具有 完全 控制 权限 ,拥有 者 可 以 通过 修改 和 更 新 ACL 来 控制 
其 他 用 户 的 访问 权限 。 

(2) 查询 字符 串 认 证 : 该 机 制 不 需要 Google 账号 就 能 访问 数据 ,与 Amazon 的 查询 字 
符 串 认证 相似 ,也 是 通过 在 URL 中 附加 签名 和 有 效 期 来 访问 共享 数据 。 

百度 云 存储 服务 目前 支持 以 如 下 两 种 方式 对 存储 资源 进行 访问 控制 。 

(1) URL 签名 : 通过 对 URL 进行 签名 来 识别 访问 者 的 号 份 , 从 而 实现 用 户 号 份 验 证 。 
百度 云 存 储 的 开发 者 可 根据 Access Key 和 Secure Key 对 本 次 请 求 进行 签名 ,然后 根据 签 
名 来 判断 当前 发 起 请 求 的 用 户 的 身份 。 

(2) 访问 控制 列表 (ACL): 通过 ACL 来 管理 Bucket 和 Object 的 访问 控制 权限 , 即 通 
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过 设置 Bucket Policy 和 Object Policy, 按 策略 允许 云 存储 用 户 将 资源 (Bucket 和 Object) 的 
访问 和 控制 权限 开放 给 其 他 用 户 。 

目前 ,主流 的 开源 云 平台 包括 OpenStack、CloudStack 和 Eucalyptus。 对 寻求 灵活 性 和 
定制 化 的 客户 来 说 ,开源 云 平 台 是 最 优 解决 方案 。 在 访问 控制 方面 ,它们 都 具有 很 高 的 安全 
性 ,可 以 保证 用 户 级 别 和 权限 的 有 效 区 分 以 及 虚拟 机 严格 按照 策略 进行 访问 。 它 们 的 共同 
点 是 均 设 置 了 安全 组 (Security Group) ,这 里 的 安全 组 是 指 一 组 规则 (ACL 或 IPtable) 的 集 
合 。 管 理 员 或 者 授权 用 户 通 过 设置 这 些 规则 来 对 虚拟 机 的 访问 流量 加 以 限制 ,从 而 达到 访 
问 控制 的 目标 。 

综 上 所 述 ,产业 界 的 云 存储 服务 产品 都 实现 了 一 些 基 本 的 访问 控制 ,但 主要 采用 的 是 传 
统 访问 控制 技术 ,缺乏 满足 云 存 储 服务 的 特殊 需求 的 访问 控制 技术 ,比如 基于 属性 加 密实 现 
细 粒 度 的 访问 控制 的 实践 。 


4.3.5 其 他 


杨 腾 飞 等 人 "指出 传统 的 属性 加 密 通 常 有 以 下 缺点 : 加 密 密 文 存储 空间 及 加 解密 运 
算 量 随 着 属性 数目 的 增长 而 线性 增长 。 而 在 对 象 云 存储 中 ,将 有 海量 的 属性 数目 ,属性 相关 
的 密 文 元 数据 大 小 将 限制 对 象 存储 的 元 数据 管理 ,不 利于 细 粒 度 访问 控制 的 应 用 。 为 了 解 
决 这 个 问题 ,他 们 提出 了 一 种 对 象 云 存 储 中 分 类 分 级 数据 的 细 粒 度 访问 控制 方法 ,克服 了 上 
述 的 安全 挑战 ,并 解决 了 已 有 方案 中 的 缺陷 ,利用 灵活 访问 策略 适应 了 对 象 属性 描述 的 应 用 
场景 。 

该 方案 综合 属性 加 密 机 制 .强制 访问 控制 对象 存储 各 自 的 优势 ,并 结合 分 类 分 级 的 属 
性 特点 ,提出 了 一 个 基于 安全 标记 对 象 存储 访问 控制 模型 。 在 该 模型 中 ,只 有 当 用 户 拥 有 的 
安全 标记 满足 一 定 的 策略 支配 访问 数据 的 安全 标记 时 ,通过 具体 的 分 类 分 级 数据 的 属性 访 
问 控制 算法 ,用 户 才 可 以 解密 数据 。 这 里 的 访问 控制 算法 可 以 利用 对 象 数据 丰富 的 分 类 分 
级 属性 元 数据 参与 访问 控制 策略 的 运算 ,生成 固定 长 度 的 ,并 且 只 有 满足 分 类 分 级 层级 支配 
策略 的 用 户 才能 解密 访问 的 密 文 数据 。 

李 吴 等 人 在 文献 [99] 中 ,对 大 数据 及 大 数据 应 用 的 新 特点 做 了 分 析 , 并 提炼 出 这 些 新 特 
点 给 访问 控制 领域 带 来 的 5 个 迫切 需要 解决 的 新 问题 ; 授权 管理 问题 、 细 粒度 访问 控制 问 
题 .访问 控制 策略 描述 问题 个 人 隐私 保护 问题 ,以 及 访问 控制 在 分 布 式 架构 中 的 实施 问题 。 
接着 对 相关 访问 控制 关键 技术 的 研究 现状 进行 了 梳理 ,包括 角色 访问 控制 \ 风 险 访问 控制 、 
半 / 非 结构 化 数据 的 访问 控制 .针对 隐私 保护 的 访问 控制 .世系 数据 相关 的 访问 控制 .基于 密 
码 学 的 访问 控制 等 。 

虽然 这 些 现 有 技术 不 一 定 能 直接 应 用 于 大 数据 场景 ,但 是 它们 都 可 以 被 大 数据 访问 控 
制 的 研究 所 借鉴 ,以 解决 大 数据 带 来 的 上 述 访 问 控制 的 新 问题 。 在 此 基础 上 ,他 们 总 结 并 提 
炼 了 若干 大 数据 访问 控制 所 呈现 的 新 特点 : 判定 依据 多 元 化 、 判 定 结果 模糊 化 、 多 种 访问 控 
制 技术 融合 化 。 最 后 ,他 们 对 未 来 大 数据 访问 控制 的 研究 进行 了 展望 ,给 出 了 一 些 有 待 研 究 
的 问题 。 
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Ali 等 人 "提出 一 个 云 中 数据 安全 共享 系统 SeDaSC。 为 了 抵抗 内 部 攻击 ,该 方案 首 
先 使 用 一 个 加 密 密 钥 加 密 文 件 , 然 后 将 密 钥 分 成 两 份 。 每 个 用 户 只 持 有 一 个 份额 , 男 外 一 份 
存放 在 一 个 可 信和 的 第 三 方 (也 叫 密码 服务 器 ) ,从 而 抵抗 内 部 人 员 的 合谋 攻击 。 

王 于 丁 等 人 "在 文献 中 提出 了 一 个 基本 的 云 计 算 环 境 下 的 访问 控制 体系 框架 ,主要 
包括 以 下 实体 : 用 户 ( 租 户 )、 云 平台 、 网 络 基 础 设施 。 用 户 ( 租 户 ) 和 云 平台 之 间 要 通过 访问 
控制 规则 和 访问 控制 模型 进行 访问 控制 。 云 平台 和 网 络 基 础 设施 大 部 分 采用 访问 控制 规 
则 。 在 云 平 台中 ,虚拟 机 之 间 要 进行 虚拟 设备 的 访问 控制 。 对 于 存储 在 云 平台 内 部 的 数据 ， 
可 以 基于 某 种 访问 控制 模型 和 基于 密码 学 的 访问 控制 手段 进行 安全 保护 。 可 信 云 平台 计算 
和 安全 监控 审计 则 是 辅助 云 环境 下 访问 控制 技术 的 必要 技术 手段 。 

房 粱 等 人 -将 基于 属性 的 访问 控制 的 整体 流程 分 为 准备 阶段 和 执行 阶段 ,并 对 两 阶段 
面临 的 关键 问题 .人 研究 现状 和 发 展 趋势 做 了 分 析 。 针 对 其 中 的 实体 属性 发 现 、 权 限 分 配 关联 
关系 挖掘 ,访问 控制 策略 描述 、 多 机 构 合 作 、 和 号 份 认 证 ,权限 更 新 与 撤销 等 难点 问题 进行 了 深 
入 探讨 。 最 后 ,在 对 已 有 技术 进行 深入 分 析 对 比 的 基础 上 ,指出 未 来 基于 属性 的 访问 控制 的 
Wt FE Ty [Al 

关于 云 计 算 与 云 存储 中 安全 和 访问 控制 的 研究 成 果 还 有 很 多 ,读者 可 以 参考 文献 [102- 
107j。 此 外 ,在 用 于 健康 医疗 领域 的 云 平 台 上 实现 数据 共享 与 访问 控制 也 有 一 些 研究 工作 
[108,109]. 


4.4 存在 的 问题 与 未 来 发 展 方向 


综合 学 术 界 与 产业 界 对 云 存 储 环境 下 身份 认证 与 访问 控制 的 研究 与 实践 ,总 结 起 来 仍 
然 存 下 如 下 问题 。 

(1) 云 服 务 提 供 商 将 大 量 IT 资源 进行 整合 的 过 程 中 使 用 了 虚拟 化 技术 ,在 将 这 些 资源 
提供 给 大 量 不 同 用 户 使 用 的 过 程 中 也 使 用 了 虚拟 化 技术 。 因 为 云 服务 提供 商 是 不 可 信 实 
体 ,那么 如 何 避 免 虚 拟 化 过 程 中 的 隐蔽 通道 ,是 访问 控制 技术 需要 解决 的 问题 。 另 外 ,仍然 
是 云 存 储 环 境 下 的 虚拟 化 ,使 访问 控制 技术 从 用 户 授权 扩展 到 虚拟 资源 的 访问 控制 和 云 存 
储 数据 的 安全 访问 等 方面 ,传统 的 访问 控制 在 应 用 范围 和 控制 手段 上 不 能 满足 云 存 储 架 构 
的 要 求 。 

(2) 云 存储 环境 下 各 类 服务 属于 不 同 的 安全 管理 域 , 当 用 户 跨 域 访 问 资源 时 ,需要 统一 
考虑 安全 策略 以 实现 相互 授权 与 资源 共享 ,但 各 安全 管理 域 的 信任 管理 问题 也 是 需要 解决 
的 问题 。 另 外 , 云 存 储 环 境 下 ,用 户 角 色 与 权限 关系 复杂 ,用户 可 能 变动 频繁 ,管理 员 角 色 比 
较 多 并 且 层 次 复杂 ,权限 的 分 配 与 传统 计算 模式 有 较 大 区 别 ,在 将 传统 访问 控制 技术 用 于 云 
存储 系统 中 时 ,要 考虑 的 问题 更 多 。 

(3) 访问 控制 与 密 钥 数字 签名 .证书 、 认 证 等 技术 的 结合 是 解决 系统 安全 访问 控制 的 
有 效 途 径 ,但 在 云 存储 环境 下 ,访问 控制 已 不 仅仅 是 对 用 户 身 份 的 认证 和 权限 的 限制 ,还 应 
该 体现 用 户 与 云 服务 提供 者 之 间 的 公平 性 。 如 何在 访问 控制 之 外 制定 信誉 机 制 和 惩罚 机 制 
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成 为 一 个 需要 解决 的 问题 。 

(4) 为 了 提供 更 高 的 安全 性 保障 ,用 户 有 将 数据 存放 在 不 同 的 云 服务 提供 商 的 服务 各 
上 的 需求 ,因此 也 需要 有 Inter-Cloud 访问 控制 方法 ,实现 在 Inter-Cloud 的 资源 信息 共享 访 
问 基础 上 提供 Inter-Cloud 之 间 的 相互 授权 机 制 ,使 不 同 云 内 的 用 户 可 以 相互 路 云 访 问 对 方 
的 资源 ,从 全 局 实现 对 云 中 资源 的 访问 控制 管理 ,并 保证 Inter-Cloud 环境 中 的 一 致 性 访问 
控制 。 

(5) 在 基于 属性 的 访问 控制 方法 中 ,权限 与 属性 紧密 关联 ,用 户 属性 的 变化 会 导致 其 所 
拥有 的 访问 权限 发 生 相 应 变化 ,需要 生成 新 密 钥 对 与 原 属性 相关 的 全 部 数据 进行 重新 加 密 ， 
这 将 市 来 极 大 的 计算 消耗 。 而 新 型 计算 环境 下 用 户 和 属性 的 大 规模 特征 和 属性 权限 之 间 的 
多 对 多 关系 都 进一步 增加 了 权限 更 新 的 复杂 度 ,给 设计 有 效 的 权限 更 新 机 制 市 来 新 的 挑战 。 

C6) 相 比 于 密 钥 策略 的 属性 加 密 机 制 ,目前 密 文 策略 的 属性 加 密 构造 还 有 很 多 不 足 : 
在 密 文 长 度 方面 , 现 有 方案 还 无 法 将 密 文 做 到 常数 并 同时 能 够 文 持 一 般 访问 结构 ; 在 安全 
性 证 明 方 面 , 密 文 策略 的 属性 加 密 不 是 基于 标准 的 困难 问题 ,或 者 方案 效率 很 差 。 因 此 , 优 
化 密 文 策略 的 属性 加 密 方案 构造 ,也 是 一 个 具有 挑战 性 的 研究 问题 。 

(7) 在 基于 CP-ABE 的 访问 控制 方法 中 ,满足 属性 要 求 的 所 有 用 户 都 可 以 提取 密 钥 并 
解密 密 文 , 那 么 任何 一 个 用 户 泄 露 其 密 钥 都 会 导致 数据 不 安全 ,而 且 泄 密 者 没有 任何 风险 。 
因此 ,实现 可 追 踊 的 CP-ABE 是 使 其 安全 实用 的 必要 条 件 。 此 外 ,知道 了 泄密 者 后 还 需要 
有 相应 的 撤销 机 制 , 即 撤销 泄密 者 的 解密 能 力 。 

在 云 计 算 与 云 存储 环境 下 ,传统 访问 控制 技术 面临 的 问题 还 不 止 以 上 所 列 的 几 方 面 。 
为 了 解决 这 些 问题 ,仍然 需要 研究 工作 者 和 产业 界 共 同 努 力 , 先 为 这 些 已 经 发 现 的 问题 提出 
适合 的 解决 方案 ,以 进一步 推进 云 计 算 与 云 存 储 的 快速 发 展 与 实际 应 用 。 


4.5 REINA 


本 章 对 云 存 储 系 统 中 的 身份 认证 与 访问 控制 技术 做 了 介绍 ,鉴于 身份 认证 技术 在 云 存 
储 环境 下 的 变化 不 大 ,所 以 重点 介绍 了 访问 控制 技术 。 盲 先 介绍 了 传统 访问 控制 技术 ,然后 
介绍 了 在 云 存 储 环境 下 对 访问 控制 技术 提出 的 新 的 需求 。 因 为 目前 用 于 云 存 储 系统 实现 细 
粒度 的 访问 控制 方案 大 部 分 都 是 基于 属性 加 密 机 制 , 所 以 对 与 属性 加 密 相 关 的 双 线 性 对 和 
访问 结构 进行 了 介绍 。 接 着 介 绍 云 存储 系统 访问 控制 的 相关 人 研究 工作 ,最 后 对 这 些 人 研究 工 
作 进 行 总 结 , 指 出 仍然 存在 的 问题 和 未 来 发 展 方 品 。 
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加 密云 存储 系统 


首先 ,从 亚马逊 (Amazon) 的 AWS BP PR, LER AWS 新 的 客户 协议 a), 
AWS Security. Without limiting Section 10 or your obligations under Section 4. 2,we will 
implement reasonable and appropriate measures designed to help you secure Your Content 
against accidental or unlawful loss.access or disclosure. (AWS 安全 。 在 不 限制 第 10 条 之 
规定 或 您 在 第 4. 2 条 项 下 之 义务 的 前 提 下 ,我们 将 采取 合理 且 适 当 的 措施 , 旨 在 帮助 您 保护 
“您 的 内 容 ” 免 过 意外 或 非法 的 损失 、 访 问 或 披露 。) 

在 早期 的 亚马逊 客户 协议 中 ,对 安全 性 是 这 样 说 的 : Security. We strive to keep Your 
Content secure, but cannot guarantee that we will be successful at doing so, given the 
nature of the Internet. Accordingly. without limitation to Section 4. 3 above and Section 
11. 5 below: you acknowledge that you bear sole responsibility for adequate security: 
protection and backup of Your Content and Applications. We strongly encourage you. 
where available and appropriate. to use encryption technology to protect Your Content 
from unauthorized access, routinely archive Your Content. and keep your Applications or 
any software that you use or run with our Services current with the latest security patches 
or updates. We will have no liability to you for any unauthorized access or use.corruption. 
deletion.destruction or loss of any of Your Content or Applications. (安全 性 。 我 们 尽力 保 
护 “ 您 的 内 容 ” 安 全 ,但 是 鉴于 互联 网 的 性 质 ,我 们 并 不 能 保证 能 够 成 功 做 到 这 一 点 。 在 不 限 
制 第 4.3 条 和 第 11.5 条 之 规定 的 前 提 下 ,您 承认 您 对 “您 的 内 容 和 应 用 程序 ”的 充分 安全 、 
保护 和 备份 负 有 唯一 责任 。 我 们 强烈 鼓励 您 ,在 适当 的 情况 下 ,使 用 加 密 技 术 来 保护 “您 的 
内 容 ” 免 受 未 经 授权 的 访问 ,定期 存档 "您 的 内 容 ”, 以 及 将 您 的 应 用 程序 或 您 使 用 或 运行 的 
任何 软件 安装 最 新 安全 补丁 或 更 新 。 em 您 的 内 容 和 应 用 程序 ”的 任何 未 经 授权 
的 访问 或 使 用 、 损 坏 、 删除、 销毁 或 丢失 负 

即使 新 的 协议 说 法 比较 委婉 一 些 pos CRASHAA RMN IE E) ib R S6 3:26" 3€ 5 i6 
当 的 措施 ”以 确保 数据 安全 和 隐私 保护 ,只 能 “尽力 而 为 ”地 保护 您 的 数据 的 安全 ,但 是 并 不 
能 保证 能 够 成 功 做 到 这 一 点 ! 但 在 协议 中 ,他 们 也 强调 使 用 加 密 技 术 来 保护 数据 安全 。 

2018 年 1 月 ,印度 11 亿 公民 身份 数据 库 Aadhaar 被 曝 遭 到 网 络 攻击 ,除了 名 字 、 电 话 
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号 码 . 邮 箱 地 址 等 之 外 ,指纹 .虹膜 记录 等 极度 敏感 的 信息 均 遭 到 泄露 。2018 年 3 A, 
Facebook 被 曝 泄 露 了 5000 万 用 户 的 个 人 资料 ,并 被 Cambridge Analytica 公司 不 正当 
利用 。 

在 中 国 , 快 递 业 、 房 产 \ 教育 培训 医疗 卫生 、 旅 游 酒 店 \ 人 才 招 聘 等 行业 的 用 户 数据 涉及 
大 量 个 人 隐私 信息 ,包括 个 人 健康 状况 、 联 系 方式 、 简 历 、 出 行 记录 等 ,以 上 信息 的 泄露 可 能 
危及 用 户 的 人 身 安 全 。 

互联 网 层出不穷 的 “泄露 门 ? 事 件 让 用 户 心 有 余 恬 ! 如 何 避 免 用 户 个 人 隐私 在 互联 网 上 
“裸奔 ” ,加密 可 能 是 最 直接 有 效 的 手段 。 在 当前 广泛 应 用 云 计 算 与 云 存 储 的 时 代 , 对 存储 于 
云 上 的 敏感 数据 进行 加 密 是 必 不 可 少 的 。 因 此 ,本 章 将 对 加 密云 存储 系统 展开 介绍 。 首 先 
从 云 环 境 下 加 窖 存储 面临 的 挑战 说 起 。 


5.1 云 环境 下 加 密 存 储 面 临 的 挑战 


在 传统 信息 存储 系统 中 ,使 用 加 密 技 术 保 护 数 据 的 机 密 性 和 个 人 隐私 是 最 常用 的 方式 ， 
但 是 在 云 存 储 环 境 下 ,加密 存储 却 面 临 以 下 几 方 面 的 问题 。 

(1) 在 云 计 算 服 务 的 平台 即 服务 (Platform as a Service,PaaS) 和 软件 即 服 务 (Software 
as a Service,SaaS) 模 式 下 ,如 果 对 存储 的 数据 进行 加 密 ,在 数据 密 文 上 进行 诸如 数据 检索 、 
简单 数据 统计 等 一 类 的 操作 都 将 变 得 困难 。 

(2) 数据 加 密 存 储 可 以 使 数据 不 被 非法 访问 或 造成 数据 泄露 。 目 前 篆 见 的 数据 加 密 方 
法 有 对 称 加 密 、 公 钥 加 密 、 代 理 重 加 密 、 广 播 加 密 、 属 性 加 密 、 同 态 加 密 等 。 然 而 ,在 云 存 储 环 
境 下 有 海量 的 数据 ,只 有 对 称 加 密 算法 的 开销 是 可 以 接受 的 ,其 他 密码 算法 都 会 带 来 很 大 的 
计算 开销 ,可 能 导致 系统 不 可 用 。 不 过 在 云 存储 环境 下 有 大 量 的 用 户 ,对称 密码 算法 的 密 钥 
管理 却 成 为 一 个 难题 。 

(3) 数据 存储 于 云 服 务 需 ,是 为 了 方便 用 户 利用 数据 ,但 是 对 数据 进行 加 密 ,无 论 是 加 
密 时 间 开 销 , 还 是 加 密 后 的 访问 过 程 ,都 会 珊 来 数据 利用 的 效率 低下 。 因 此 ,如 何平 衡 安 全 
TE .效率 与 可 用 性 是 一 个 难题 。 

针对 问题 (1), 由 于 相同 的 数据 在 不 同 密 钥 或 加 密 机 制 下 生成 的 密 文 并 不 相同 ,数据 加 
密 存 储 将 会 影响 到 云 存 储 系统 中 的 一 些 其 他 功能 ,包括 密 文 数据 搜索 、 密 态 计 算 、 密 文 重复 
数据 删除 等 。 因 此 ,数据 加 密 后 怎样 对 密 文 进行 搜索 以 及 处 理 , 需 要 人 研究 密 文 检索 、 密 态 计 
算 、 密 文 数据 重复 删除 等 。 

针对 问题 (2) ,需要 研究 云 存 储 环 境 下 数据 共享 中 的 密 钥 分 发 与 管理 机 制 。 

针对 问题 (3) ,要 解决 安全 性 ,效率 与 可 用 性 的 平衡 。 要 根据 用 户 的 实际 需求 ,同时 结合 
各 种 加 密 技 术 的 特征 ,对 云 存 储 系统 进行 综合 评估 与 设计 。 在 加 密 存 储 系统 中 常用 的 加 密 
技术 有 对 称 加密 、 公 和 钥 加 密 、 代 理 重 加 密 、 广 播 加 密 、 属 性 加 密 、 同 态 加 密 等 。 更 具体 地 ,在 对 
称 加 密 与 公 钥 加 密 中 ,又 有 确定 性 加 密 与 概率 加 密 之 分 。 在 对 称 加 密 算法 中 是 通过 使 用 链 
接 模 式 ,比如 密 文 分 组 链接 (Cipher Block Chaining,CBC) 模 式 来 实现 概率 加 密 。 而 同 态 加 


86 | 云 存储 安全 一 一 大 数据 分 析 与 计算 的 基石 


密 又 分 为 部 分 同 态 、 类 同 态 与 全 同 态 ( 在 第 9 草 密 态 计 算 一 节 详 述 ) 。 人 简单 总 结 以 上 加 密 技 
术 会 有 如 下 特点 。 
。 确定 性 加 密 , 可 以 实现 等 值 比较 ,但 泄露 了 信息 的 分 布 ; 而 概率 加 密 , 泄 露 的 信息 
少 , 但 因为 相同 的 明文 被 加 密 成 不 同 的 密 文 ,因此 不 适合 进行 密 态 计算 。 
。 对 于 同 态 密码 算法 中 的 部 分 同 态 ,只 文 持 加 法 或 乘法 中 的 一 种 ,但 效率 较 好 ; 而 全 
同 态 加 密 ,虽然 支持 任何 计算 ,但 计算 开销 比较 大 。 
© 保 序 加 密 (Order-Preserving Encryption, OPE) 和 顺序 可 见 加 密 (Order-Revealing 
Encryption, ORE) ,通常 用 于 数值 型 数据 , 文 持 比较 与 范围 查询 ,但 是 会 泄露 数据 的 
顺序 信息 。 
在 CryptDB 一 系统 中 引入 了 洋葱 加 密 (Onion Encryption) , 即 对 于 一 个 数据 字段 ,采用 
多 种 加 密 方 法 以 府 套 的 方式 逐 层 加 密 。 比 如 可 以 对 年 龄 字段 “age” 采 用 "概率 加 密 ( 加 法 同 
态 加 密 ( 保 序 加 密 ('"age')))”。 这 是 一 种 组 合 加 密 方 法 , 通 稼 越 外 层 的 加 密 算 法 的 安全 性 越 
强 , 但 是 功能 越 弱 。 
数据 加 密 市 来 一 个 附加 好 处 ,就 是 数据 的 删除 ,因为 目前 还 没有 可 徘 的 可 信和 删除 方案 ， 
那么 数据 加 密 存 储 , 只 要 不 骏 露 密 钥 , 密 文 数据 即使 不 被 服务 右 删 除 , 也 不 会 泄露 数据 内 容 。 
综 上 所 述 , 在 加 密云 存储 系统 中 ,有 以 下 几 个 方面 的 问题 需要 解决 。 
C1) 加 密 数 据 共享 问题 ,主要 困难 是 云 存 储 环境 下 大 量 用 户 之 间 的 授权 管理 ,以 及 大 量 
密 钥 的 分 发 与 管理 。 
(2) 加 密 数 据 搜索 问 题 , 包 括 数 据 拥 有 者 目 身 的 搜索 以 及 授权 其 他 用 户 搜索 。 
C3) 加 蜜 数据 处 理 问题 ,主要 是 密 态 数据 的 计算 与 统计 分 析 。 
(4) 加 密 数 据 重 复 删 除 问 题 。 不 仅 明 文 数 据 存 在 重复 删除 问题 , 密 文 数据 也 存在 大 量 
重复 的 数据 ,如 何 有 效 地 删除 ,以 提高 存储 利用 率 ? 
其 中 加 密 数 据 搜索 将 在 第 6 章 专 门 前 述 , 密 文 数据 处 理 在 第 9 章 专 门 介绍 ,本 曹 重 点 介 
绍 加 密云 存储 系统 的 发 展 . 加 密云 存储 系统 中 数据 共享 时 的 密 钥 分 发 与 管理 、 密 文 数据 重复 
删除 以 及 加 密云 数据 库 等 方面 的 内 容 。 
在 这 里 要 说 明 一 下 ,数据 的 机 密 性 和 隐私 性 的 意义 是 不 同 的 ,机 密 性 保护 通过 数据 加 密 
很 容易 实现 ,而 隐私 性 保护 通过 加 密 却 不 能 完全 实现 。 比 如 ,Alice 有 一 天 收 到 了 儿童 医院 
的 一 份 密 文 数据 ,数据 的 机 密 性 是 得 到 保护 的 ,但 其 个 人 隐私 却 在 这 件 事情 中 骏 露 了 。 首 先 
是 Alice 有 孩子 ,而 且 生 病 了 ,这 就 是 个 人 隐私 。 有 时 候 , 数 据 的 隐私 保护 通过 加 密 并 不 能 
完全 实现 ,还 需要 专门 的 隐私 保护 方法 。 关 于 数据 的 隐私 保护 在 第 9 章 有 详细 阐述 。 


5.2 加 密云 存储 系统 的 发 展 


本 节 介 绍 加 密云 存储 系统 的 发 展 ,从 网 络 文 件 系 统 说 起 ,到 加 密 文件 系统 ,然后 发 展 到 
云 环 境 下 的 加 密 存 储 系统 ,并 且 介 绍 了 产业 界 在 加 密云 存储 系统 方面 的 研究 与 实践 。 
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5.2.1 加 密 存 储 系 统 发 展 历程 


要 讲 加 密 存储 系统 ,首先 要 说 到 存储 系统 中 的 重要 组 成 部 分 一 一 文件 系统 ,加 密 存 储 系 
统 其 实 就 是 实现 加 密 文件 系统 ,而 加 密 文 件 系 统 的 发 展 ,首先 必须 说 到 网 络 文件 系统 。 关 于 
加 密 存 储 系统 ,本 书 作 者 在 其 博士 学 位 论文 中 也 有 详细 介绍 ,以 下 内 容 有 部 分 摘 取 自作 者 
的 论文 。 

第 一 个 网 络 文件 系统 是 1985 年 由 Sun Microsystems 公司 提出 的 网 络 文件 系统 
(Network File System, NFS)'* ,也 是 文件 共享 的 事实 上 的 标准 。NFS 早期 版 本 依靠 操作 
系统 实现 访问 控制 和 弱 认 证 机 制 ; 到 了 NFS v2, 则 已 采用 UID/GID 的 UNIX 风格 的 认证 、 
Diffie-Hellman 认证 、Kerberos v4 认证 。 

1988 年 , 卡 内 基 梅 隆 大 学 (Carnegie Mellon University) 开发 了 Andrew 文件 系统 
(Andrew File System, AFS)'°’ ,对 NFS v4 产生 较 大 影响 。AFS 最 初 设 计 用 于 在 校园 有 
限 带 宽 的 主干 网 上 提供 可 扩展 的 文件 系统 ,主要 服务 包括 可 扩展 、 绥 人 存 . 简 单 寻 址 ,后 来 发 展 
成 为 网 络 上 的 可 扩展 分 布 式 文件 系统 。AFS 支持 完全 的 自治 单元 ,每 个 自治 单元 有 自己 的 
保护 域 . 认 证 服务 需 、 文 件 服 务 需 、 卷 定位 服务 硕 、 系统 管理 员 。 系 统管 理 员 可 以 设置 月 治 单 
元 是 否 被 其 他 单元 看 见 ,支持 无 颖 的 交叉 域 文件 共享 。AFS 使 用 Kerberos 进行 认证 ,用 户 
认证 通过 后 ,认证 服务 需 发 给 用 户 一 个 票据 ,用 户 使 用 票据 与 文件 服务 硕 进 行 相互 认证 。 

NFS 和 AFS 是 开发 最 早 、 应 用 最 广泛 的 网 络 文件 系统 ,也 是 当时 事实 上 的 工业 标准 ， 
因此 大 量 的 加 密 文 件 系统 也 是 在 NFS 和 AFS 上 实现 。 第 一 个 加 密 文 件 系统 是 1993 年 由 
AT&T Bell Labs 的 Blaze 提出 的 CFS(Cryptographic File System) ^? ,后 来 大 量 的 加 密 文 
件 系 统 相 继 出 现 。 目 前 ,几乎 所 有 存储 系统 都 会 考虑 安全 。 存 储 系统 的 演进 如 图 5-1 所 示 。 

从 图 5-1 中 可 以 看 出 ,存储 系统 从 本 地 存储 逐渐 问 网 络 存储 转变 ,从 集中 式 架 构 回 分布 
式 架 构 转 变 , 如 从 DAS(CDirect Attached Storage) 到 NAS( Network Attached Storage), 
SAN(Storage Area Network) fll OBSCObject-Based Storage) ,从 内 置 存储 向 外 购 存 储 转 变 
(如 eVault, Mozy 和 Amazon S3 等 ) , 即 从 私有 云 存 储 向 公共 云 存 储 方式 转变 ,最 终 回 着 大 
规模 、 复 杂 的 系统 转变 ,对 于 交叉 平台 数据 共享 \. 可 扩展 性 .性 能 .可 管理 性 和 安全 性 的 要 求 
越 来 越 高 。 

早期 的 加 密 文 件 系 统 是 不 文 持 数据 共享 的 ,比如 最 早 的 CFS 的 主要 目标 是 以 透明 的 方 
式 给 用 户 提 供 安 全 文件 服务 ,而 且 不 需要 将 加 密 的 文件 考虑 成 系统 的 特别 的 部 分 。CFS [n] 
客户 端 内 核 注册 成 为 一 个 NES 服务 器 ,因此 CFS 运行 在 用 户 进程 空间 中 , 当 其 执行 加 解密 
操作 时 需要 额外 的 上 下 文 切 换 , 影 响 了 系统 的 效率 。 它 是 一 个 用 户 态 的 虚拟 加 密 文 件 系 统 ， 
可 以 挂 在 其 他 文件 系统 之 上 ,为 用 户 提 供 文件 /文件 名 加 密 保 护 。 男 外 ,CFS 是 一 个 本 地 文 
件 系统 , 当 用 户 需 要 与 其 他 用 户 共享 加 密 文 件 时 ,需要 亲自 将 密 钥 交 给 其 他 用 户 。 

意大利 萨 勒 诺 大 学 (University of Salerno) JF A ff] TCFS 2 是 一 个 向 用 户 提 供 加 密 服 务 
的 内 核 级 文件 系统 。 与 CFS 相似 ,TCFS 提供 端 到 端的 安全 (加 解密 在 Client 端 进行 )。 不 
同 的 是 ,TCFS 提供 数据 完整 性 保护 ,并 且 可 以 在 一 个 组 的 用 户 间 提供 文件 共享 。 用 户 必须 
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维护 一 个 口令 用 来 加 密 所 有 文件 密 钥 ,而 不 是 像 CFS 每 个 目录 一 个 密 钥 。TCFS 需要 一 个 
中 心服 务 硕 进行 密 钥 分 发 ,比如 组 服务 需 。 

麻 省 理工 学 院 (MIT) 开 发 的 自 证 明文 件 系统 (Self-certifying File System. SFS) ? 是 一 
个 在 线 加 密 存 储 系统 , 它 引 入 了 有 自 认证 路 径 名 (一 个 包含 适当 远程 服务 器 公 钥 的 文件 名 ) ,将 
密 钥 管理 完全 从 文件 系统 中 分 离 出 来 。 在 文件 访问 期 间 ,SFS 客户 端 将 公 钥 租 入 路 人 径 名 ,可 
以 验证 SFS 文件 服务 器 。SFS 的 改进 版 本 一 一 SFS-Read OnlyCSFS-RO)U" 则 是 一 个 静态 
数据 加 密 系 统 , 它 保证 客户 问 从 服务 副 上 检索 到 的 数据 是 通过 认证 的 ,并 且 与 当前 版 本 一 
致 。SFS 及 其 改进 版 本 均 是 基于 公 钥 密码 技术 。 

MIT 的 Cepheus? 加密 系统 首次 提出 Lazy Revocation 的 思想 。Lazy Revocation 是 指 
当 撤 销 用 户 的 权限 时 ,不 立即 对 属于 该 用 户 的 文件 使 用 新 的 密 钥 重新 加 密 ,而 是 等 到 下 一 次 
文件 更 新 时 再 重新 加 密 。Cepheus 提出 了 三 方 架构 的 模式 ,由 一 个 可 信和 的 第 三 方 服务 器 进 
行 用 户 密 钥 的 管理 ,引入 锁 盒子 机 制 进行 用 户 分 组 管理 。 关 于 撤销 用 户 的 密 钥 管理 ,文献 
[13j 中 进行 了 有 关 的 讨论 。 相 比 用 户 撤销 后 立即 进行 重新 加 密 的 Aggressive Revocation, Lazy 
Revocation 在 性 能 上 更 有 优势 ,但 均 需 要 重 加 密 ， 

纽约 州立 大 学 石 溪 分 校 (Stony Brook University. SUNY) FF KAN NCryptfs"* 4 Ail FA ME 
栈 文件 系统 技术 设计 的 共享 加 密 文 件 系 统 ,主要 目标 是 提供 透明 的 文件 加 密 服 务 ,无 须 过 分 
依赖 底层 操作 系统 内 核 的 具体 细节 ,具有 较 高 的 可 移植 性 。NCryptfs 提供 内 核 级 别 的 安全 
服务 ,因此 在 性 能 上 有 很 大 的 优势 。NCryptfs 通过 挂 载 点 /mnt/ncryptfs 进行 访问 ,并且 通 
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过 授权 入 口 (Authorization Entries) 管 理 系 统 的 访问 和 操作 ,每 个 授权 入 口 都 是 一 个 登录 口 
令 及 其 相关 权限 的 哈 希 值 。NCryptfs 通过 用 户 输 入 的 passphrase 为 该 目录 及 其 下 的 文件 
创建 密 钥 ,该 密 钥 存储 在 内 核 中 。 当 用 户 需 要 共享 文件 时 ,必须 为 每 个 共享 用 户 关 联 授权 人 
口 。 但 由 于 密 钥 是 通过 用 户 的 attach 命令 生成 的 , 当 其 他 用 户 访 问 共 享 文件 时 ,该 文件 的 
创建 者 必须 在 线 ,否则 无 法 事先 产生 文件 的 加 解密 密 钥 并 对 访问 者 进行 验证 。 由 于 加 密 密 
钥 一 直 都 存放 在 内 核 内 存 中 ,因此 用 户 的 撤销 不 需要 重新 加 密 ,但 是 只 能 在 同一 台 机 需 中 共 
享 文件 。 

斯 坦 福 大 学 (Stanford University) JF A ff] SIRIUS?! 被 设计 用 来 在 不 安全 的 网 络 文件 
系统 (如 NFS,CIFS,OceanStore 等 ) 之 上 提供 端 对 端的 传输 安全 。SiRiUS 假定 网 络 是 不 可 
信 的 ,对 文件 级 的 共享 提供 自己 读 写 加 密 访 问 控制 。SiRiUS 能 够 对 已 有 的 系统 提供 安全 而 
不 需要 任何 人 硬件 修 改 的 方案 , 当 组 织 不 能 对 当前 系统 升级 ,又 必须 提供 一 定 的 安全 功能 时 ， 
SiRiUS 就 可 以 充当 一 种 临时 解决 方案 。 

Storage Technology Corporation 开发 的 SSFSU5? 允许 属于 同一 组 织 或 不 同 组 织 的 两 
个 或 多 个 组 安全 地 共享 文件 。 除 了 加 密 和 分 布 的 访问 控制 ,SSFS 也 提供 密 钥 恢复 和 安全 
密 钥 存储 。 所 有 保密 密 钥 存放 在 智能 卡 上 ,智能 卡 会 把 所 有 密 钥 进行 加 密 。SSFS 组 服务 
ar fa vi Client 认证 ,必须 一 直 在 线 , 所 以 可 能 导致 中 心 点 失效 。 系 统 中 的 公 钥 操作 导致 很 大 
的 开销 。 

另外 ,美国 哥伦比亚 大 学 (Columbia University) 开 发 的 CryptFS “也 是 一 个 堆栈 文件 
AS. MIN KF 2 w S ZS 4 HK (University of California at Santa Cruz. UCSC) 提 出 的 
SNAD “权衡 了 安全 与 性 能 ,提供 多 种 完整 性 方案 。 剑 桥 大 学 (University of Cambridge) 
开发 的 StegFS ^ 是 应 用 隐藏 技术 的 加 密 文 件 系 统 。 Farsite 由 多 台 分 布 式 的 不 可 信 计 算 
机 组 成 ,但 通过 一 些 安全 机 制 提 供 一 个 集中 式 文 件 服 务 硕 的 功能 ,通过 多 副本 机 制 提 供 文 件 
的 可 徘 性 与 可 用 性 ,通过 加 密 来 保证 文件 内 容 保 密 性 ,同时 通过 一 个 能 防止 拜占庭 错误 的 协 
议 保 证 数据 的 完整 性 。 

大 部 分 加 密 存储 系统 的 安全 方案 都 是 基于 公 钥 密码 技术 ,因此 会 市 来 较 大 的 时 间 开 销 。 
另外 ,在 加 密 存 储 系 统 中 ,撤销 用 户 时 存在 重 加 密 的 问题 , 重 加 密会 融 来 较 大 的 操作 开销 。 
NCryptfs 将 密 钥 置 于 内 核 内 存 虽 然 避 人 免 了 重 加 密 , 但 是 共享 极 不 方便 ,只 能 在 同一 台 机 玫 
中 共享 文件 。 

惠普 实验 室 (Hewlett-Packard Labs) JF A ff] Plutus” 的 主要 目标 在 于 给 文件 拥有 者 以 
文件 授权 的 直接 控制 的 同时 提供 高 可 扩展 性 的 密 钥 管理 。 用 户 可 以 为 利己 的 文件 使 用 密 钥 
发 布 方案 日 定义 安全 策略 和 认证 机 制 。 客 户 端 负责 所 有 的 密 钥 分 发 和 管理 ,在 共享 过 程 中 
为 用 户 数据 与 元 数据 提供 端 到 端的 机 密 性 和 完整 性 保护 。 对 于 每 个 文件 组 ,有 一 个 RSA A 
私 钥 对 与 其 关联 , 私 钥 部 分 叫 作 FileSignkey. A 843p 27 | 4E File-Verifykey。 读 者 (Readers) 只 
分 配 Lockbox-Keys( 加 密 文 件 密 钥 ) ,而 写 者 (Writers) 除 了 Lockbox-Keys 外 还 分 配 File- 
Signkeys, 

Plutus 系统 采用 了 双 层 加 密 机 制 ,每 个 文件 都 会 采用 一 个 对 称 密 钥 加 密 。 在 共享 时 这 
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些 文件 会 被 组 织 为 "组 ” ,并 产生 一 个 组 密 钥 负责 对 每 个 文件 的 加 密 密 钥 进行 加 密 。 文 件 密 
文 和 对 应 的 文件 加 密 密 钥 的 密 文 被 存储 在 不 可 信 的 存储 服务 硕 上 ,而 组 密 钥 则 被 单独 分 发 
给 需要 共享 的 用 户 。Plutus 里 面 提 出 的 “文件 组 ”的 概念 被 很 多 的 后 续 研 究 者 利用 ,但 是 随 
着 “组 ”的 增长 ,其 密 钥 数 量 也 将 线性 增长 。 针 对 这 个 问题 , Ateniese 等 人 -提出 代理 重 加 
密 的 方法 实现 密 钥 分 发 ,数据 拥有 者 使 用 对 称 密 钥 加 密 文 件 , 然 后 使 用 日 己 的 公 钥 加 密 对 称 
密 钥 。 当 数据 拥有 者 要 与 其 他 用 户 共 享 文件 时 ,就 使 用 自己 的 私 钥 和 授权 用 户 的 公 钥 生成 
代理 重 加 密 密 钥 ,授权 用 户 就 可 以 使 用 该 代理 重 加 密 密 钥 解密 使 用 数据 拥有 者 公 和 钥 加 密 的 
SCE AEA 
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件 使 用 对 称 密 钥 加 密 ,为 了 授权 用 户 访 问 文件 ,数据 拥有 者 为 授权 用 户 生 成 公开 令 牌 ,授权 
用 户 可 以 使 用 目 己 的 私 钥 从 令 牌 中 导出 指定 文件 的 解密 密 钥 。 服 务 需 虽然 拥有 令 牌 ,但 其 
并 不 能 从 令 牌 中 导出 解密 密 钥 。 

Tahoe “是 一 个 安全 的 分 布 式 文件 系统 ,部 署 在 一 个 商业 的 备份 服务 器 中 ,以 提供 访问 
控制 .加 密 与 完整 性 保护 。 它 采用 了 纠 删 码 技 术 进 行 容错 。 

以 上 加 蜜 文件 系统 都 是 针对 传统 网 络 存 储 系统 ,也 可 以 看 作 是 类 似 于 私有 云 存 储 系统 ， 
构建 在 一 个 组 织 内 部 且 为 该 组 织 或 者 信任 该 组 织 的 用 户 提 供 服务 ,可 以 由 该 机 构 或 第 三 方 
管理 。 

2010 年 ,微软 研究 院 的 Kamara 等 人 提出 了 面向 公共 云 的 加 密 存 储 框 架 , 由 数据 拥 
有 者 对 文件 进行 分 块 加 密 处 理 , 然 后 将 数据 存储 到 公共 云 服务 部 上 ,利用 数据 审计 机 制 提 供 
数据 完整 性 保护 ,同时 提供 基于 属性 的 细 粒 度 访问 控制 和 可 搜索 加 密 机 制 。Wang 等 人 
提出 一 种 云 环境 中 外 包 数 据 的 安全 存储 与 访问 控制 方案 ,将 数据 分 块 并 采用 不 同 的 密 钥 加 

2010 年 ,Mahajan 等 人 -在 Depot 系统 中 提出 一 种 最 小 化 云 存储 中 可 信任 实体 的 方 
法 ,只 要 有 一 个 正确 可 访问 的 客户 并 或 服务 右上 有 用 户 需 要 的 数据 ,用 户 就 可 以 通过 网 络 获 
取 到 正确 的 数据 。Tang 等 人 ”提出 一 个 支持 数据 加 密 并 保证 数据 可 信和 删除 的 安全 云 存 储 
系统 FADE, 在 Amazon S3 上 实现 了 一 个 原型 系统 ,表明 FADE 支持 基于 策略 的 可 信 删 除 。 
Shraer AI f£ Venus 系统 中 提出 一 个 基于 核心 集 的 信任 体系 ,通过 三 方 架构 的 方式 为 用 
户 提 供 安 全 功能 。 

2011 年 ,清华 大 学 高 性 能 计算 所 设计 开发 了 Corslet?" 。 这 是 一 个 栈 式 文件 系统 ,通过 
引入 可 信 第 三 方 服务 融 ,消除 用 户 对 底层 存储 系统 的 依赖 ,在 不 可 信和 的 网 络 环境 下 为 用 户 提 
供 端 到 端的 数据 机 密 性 与 完整 性 保护 以 及 区 分 读 写 的 访问 控制 。Corslet 还 利用 收敛 加 密 
的 思想 提出 了 一 种 数据 和 目 加 密 的 方式 ,以 每 个 文件 块 的 散 列 值 与 侦 移 量 作 为 密 钥 ,对 文件 块 
本 号 进行 加 密 ,以 利于 重复 数据 删除 。 

2013 年 ,Bessani 45 AU? S th. DepSky 系统 ,通过 对 云 中 云 (Cloud-of-Clouds) 的 加 密 、 
编码 和 备份 ,提高 云 中 数据 的 机 蜜 性 完整 性 和 可 用 性 。 

因为 无 论 是 早期 的 加 密 文 件 系统 ,还 是 云 环 境 下 的 加 密 存 储 系统 ,其 核心 都 是 数据 的 加 
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解密 与 密 钥 的 管理 和 分 发 ,所 以 实现 机 制 与 方法 是 类 似 的 。 即 使 是 在 云 存储 环境 下 ,将 早期 
的 加 密 文件 系统 加 以 改进 ,就 可 以 应 用 于 云 环境 下 的 加 密 存储 系统 。 这 可 能 就 是 为 什么 在 
云 存储 环境 下 ,关于 加 密 文件 系统 的 研究 工作 不 多 的 原因 。 有 了 早期 关于 加 密 文 件 系 统 的 
研究 工作 ,在 云 存储 环境 下 ,更 需要 关注 加 密 存 储 系统 的 实际 开发 与 应 用 。 


5.2.2 产业 界 的 实践 


目前 的 公共 云 存 储 服 务 提供 商都 是 一 些 大 型 的 知名 IT 公司 ,在 这 些 服 务 提供 商 的 官 
方 网 站 上 有 关于 其 服务 产品 的 介绍 。 下 面 对 这 些 云 存储 服务 中 关于 数据 加 密 的 部 分 进行 
介绍 。 

亚马逊 的 简单 存储 服务 (Amazon Simple Storage Service) 提 供 的 数据 加 密 机 制 如 下 。 

(1) 提供 静态 数据 加 密 存储 ,可 以 为 AWS 存储 和 数据 库 服 务 ( 如 EBS, S3. Glacier, 
Oracle RDS,SQL Server RDS 和 Redshift) 提 供 数 据 加 密 功 能 。 

(2) 灵活 的 密 钥 管理 选项 (包括 AWS Key Management Service), 使 用 户 可 以 选择 让 
AWS 管理 加 密 密 钥 ,还 是 用 户 上 自己 管理 自己 的 密 钥 。 

(3) 使 用 AWS CloudHSM 的 基于 便 件 的 专用 加 密 密 钥 存储 ,使 服务 满足 合 规 性 要 求 。 

(4) AWS 提供 了 相应 的 API, 用 于 将 加 密 和 数据 保护 与 用 户 在 AWS 环境 中 开发 或 部 
署 的 所 有 服务 相 集 成 。 

微软 的 Azure 提供 的 数据 加 密 机 制 如 下 。 

(1) 数据 传输 加 密 : 回 Azure 存储 传输 数据 或 从 Azure 存储 读 取 数据 时 , 均 使 用 安全 
链接 HT TPS 对 传输 数据 进行 加 密 , 用 以 保障 传输 数据 安全 。 

(2) ing 2 sig JL A: 由 数据 拥有 者 在 将 数据 传输 到 Azure 存储 之 前 对 数据 进行 加 密 , 当 
从 Azure 存储 下 载 数据 后 再 解密 数据 ,提供 数据 的 端 到 端 加 密 。 

(3) 静态 数据 加 密 : Azure 提供 3 种 方式 ,一 种 由 存储 服务 需 在 将 数据 写 和 人 Azure 存储 
时 目 动 加 密 数 据 ; 一 种 是 数据 拥有 者 在 存储 数据 前 进行 加 密 ; 第 三 种 是 Azure 磁盘 加 密 ， 
允许 加 密 laas 虚拟 机 使 用 的 OS 磁盘 和 数据 磁盘 。 

(4) 共享 文件 时 使 用 SMB 3. 0 加 密 , 其 中 SMB 3. 0 Æt IRF ari E H (Server 
Message Block. SMB) PPI AY 3. 0 iA . AE — RP FH S Ped 26 2 5 BN. E 3€ I BE Ze eH. 
Microsoft Windows 的 网 络 上 的 机 融 能 够 共享 计算 机 文件 .打印 机 、 串 行 端 口 和 通信 等 

(5) 文件 共享 时 ,文件 加 密 密 钥 的 授权 可 以 通过 基于 角色 的 访问 控制 ,限定 某 些 角色 用 
户 可 以 共享 该 加 密 文 件 。 

阿里 云 服务 提供 基于 人 硬件 密码 机 的 加 密 服 务 , 所 有 的 用 户 数据 都 进行 加 密 存 储 。 同 时 
可 以 使 用 身份 识别 卡 进 行 身 份 认证 ,所 有 的 加 密 服 务实 例 管理 操作 都 必须 对 身份 识别 卡 进 
行 验 证 ,由 用 户 持 有 此 身份 识别 卡 , 从 而 实现 加 解密 可 控 。 数 据 加 解密 由 物理 心 片 实现 ,加 
密 过 程 无 法 被 算 改 。 其 加 密 密 钥 使 用 物理 心 片 加 密 保 存 , 任 何人 无 法 导出 明文 密 钥 。 因 此 ， 
可 以 实现 很 高 的 数据 安全 保护 。 
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以 上 介绍 的 几 个 云 存储 服务 除了 提供 存储 空间 外 ,还 可 以 提供 诸如 弹性 计算 ` 数 据 库 应 
用 解决 方案 ,包括 基于 SQL 与 NoSQL 的 数据 库 应 用 。 

以 下 介绍 几 个 比较 流行 的 提供 存储 空间 服务 的 云 存储 应 用 系统 , 即 通 稼 所 说 的 网 盘 。 

根据 存储 数据 是 否 加 密 及 加 蜜 方式 ,目前 的 网 盘 系 统 可 以 分 为 3 类 。 

(1) 没有 加 密 数 据 ,将 数据 明文 直接 存放 在 服务 器 上 ,如 iDisk. 

(2) 由 服务 器 对 数据 进行 加 密 ,并 保管 密 钥 ,如 DropBox、SkyDrive( 后 更 名 为 OneDrive) 。 

(3) 由 数据 拥有 者 对 数据 进行 加 密 , 密 钥 以 分 层 加 密 的 方式 管理 ,数据 拥有 者 保管 根 密 
EH ,其 他 子 层 密 钥 以 密 文 的 形式 存储 在 服务 大 上 ,如 SpiderOak、Wuala。 

大 部 分 的 网 盘 系 统 文 持 用 户 目 主 加 密 , 这 种 方式 也 是 最 安全 可 控 的 。 但 是 也 有 一 些 网 
盘 系统 支持 "在线 重 置 数据 密 钥 ” ,因此 让 人 人 怀疑 数据 密 钥 是 不 是 用 户 可 控 的 。 

DropBox 是 一 个 基于 商业 应 用 的 在 线 存 储 系统 ,底层 采用 亚马逊 的 简单 存储 服务 SS. 
通过 AES-256 加 密 算 法 对 数据 进行 加 密 存 储 ,提供 了 数据 同步 及 文件 共享 等 服务 。 但 是 由 
于 DropBox 的 所 有 密 钥 均 由 服务 需 来 保管 ,很 难 真 正 保 隐 用 户 数据 的 机 密 性 。 

OneDrive 是 微软 公司 在 其 云 存储 平台 Azure 上 搭建 的 网 盘 系 统 , 和 DropBox 一 样 ,也 
是 由 服务 硕 保 管 密 钥 。 

SpiderOak 是 一 个 安全 的 云 存 储 网 盘 系统 ,对 外 提供 数据 同步 及 共享 等 功能 。 用 户 自 
主 设置 文件 密 钥 对 数据 进行 加 密 ,并且 巾 用 户 保管 密 钥 ,因此 服务 需 得 不 到 用 户 数据 明文 。 

Wuala 是 瑞士 联邦 理工 学 院 人 研发 的 一 个 安全 网 盘 系 统 , 它 和 SpiderOak 一 样 ,将 数据 加 
密 后 再 上 传 至 服务 硕 , 由 用 户 上 月 己 管 理 文件 密 钥 。 但 是 SpiderOak 和 Wuala 均 提 供 了 “外 
链 ” 的 数据 共享 方式 与 “在 线 重 置 密码 ?功能 ,因此 其 安全 性 还 有 待 验 证 。 

Google Drive 是 谷歌 公司 推出 的 一 项 在 线 云 存储 服务 ,内置 了 Google Docs. HF AW 
实时 和 他 人 进行 协同 办 公 。 最 近 Google X. HEH, T Google One 云 存 储 服务 ,用 以 取代 
Google Drive, iDisk 和 Ubuntu One 均 为 与 操作 系统 相 结合 的 网 盘 系 统 , 通 过 内 骸 在 操作 
系统 中 的 方式 为 用 户 提 供 数据 备份 等 服务 。 其 他 网 盘 系 统 还 有 Amazon Drive, OpenStack 
的 SWIFT 4 ili Bt Depot ^? 等 。 

Mulazzani 等 人 ”对 一 些 主流 网 盘 系统 进行 了 安全 性 分 析 , 指 出 除了 网 盘 服务 提供 商 
禄 取 用 户 数 据 之 外 ,网 盘 系 统 中 还 存在 以 下 攻击 方式 : 操纵 喻 希 值 攻击 (Hash Value 
Manipulation Attack) fij £j 76 £ ID I it; (Stolen HostID Attack) 和 直接 下 载 攻击 (Direct 
Download Attack). 

。 操纵 哈 布 值 攻击: 在 网 盘 系 统 中 ,用 户 通过 计算 文件 的 哈 希 值 来 判断 该 文件 是 否 需 

要 上 传 。 如 果 攻 击 者 获取 到 某 文件 的 哈 布 值 , 然 后 告知 服务 硕 要 上 传 该 文件 ,而 事 
实 上 攻击 者 并 没有 该 文件 。 在 接 到 上 传 请 求 后 ,服务 硕 回 用 户 请 求 该 文件 的 哈 硕 
值 , 然 后 根据 哈 硕 值 判断 服务 需 中 是 否 已 有 该 文件 。 奋 有 , 则 服务 需 认 为 攻击 者 拥 
有 该 文件 ,攻击 者 也 不 用 上 传 文件 。 在 下 次 进行 文件 同步 时 ,攻击 者 就 可 以 从 服务 
甫 中 下 载 该 文件 ,从 而 实现 了 根据 哈 硕 值 获取 文件 内 容 的 攻击 。 

。 {it Hi 7a d: ID 攻击 : 宿主 ID 是 网 盘 系统 为 了 将 客户 端 和 和 宿主 机 绑 定 而 生成 的 唯一 
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标识 用 户 的 ID, 用 以 验证 用 户 的 号 份 。 如 果 攻 击 者 通过 某 种 非法 的 方式 偷 禄 到 用 
户 的 宿主 ID ,他 就 可 以 获取 用 户 的 所 有 文件 。 

。 直接 下 载 攻 击 : 通过 文件 哈 布 值 ,直接 回 服务 天 请 求 下 载 该 哈 布 值 所 对 应 的 文件 ， 
其 性 质 与 操纵 哈 布 值 攻击 相似 。 

传 颖 勋 等 人 提出 一 种 云 存储 环境 下 的 安全 网 盘 系 统 架 构 ,并 在 此 架构 上 设计 实现 了 
CorsBox 系统 。CorsBox 系统 采用 的 DirTree 协议 以 最 后 修改 时 间 和 文件 版 本 号 共同 作 
用 ,取代 哈 希 值 作为 文件 上 传 的 判定 条 件 , 有 效 地 防止 了 操纵 哈 希 值 攻击 和 直接 下 载 攻击 。 
该 系统 利用 宿主 ID 和 密码 同时 校 验 、 用 户 日 行 保管 主 密 钥 的 方式 ,防止 偷 魏 宿主 ID 攻击 。 
CorsBox 系统 还 提供 了 一 套 多 粒度 的 数据 共享 与 密 钥 管理 分 发 机 制 ,用 户 只 需 保 存 一 个 主 
密 钥 和 上 月 己 的 私 钥 就 可 以 为 共享 数据 提供 两 种 密 钥 粒 度 的 选择 ,提高 了 数据 的 机 密 性 。 同 
时 ,该 系统 使 用 了 大 数据 的 断 点 续 传 机 制 ,能 够 支持 大 数据 的 高 效 传输 。CorsBox 系统 采用 
一 种 基于 目录 树 的 同步 方式 ,在 提高 安全 性 的 同时 保证 了 共 阐 操作 的 最 终 一 致 性 ,安全 LS 
效 地 实现 了 数据 明文 与 密 文 之 间 的 同步 。 测 试 结果 表明 ,CorsBox 系统 的 安全 机 制 仅 给 系 
统 审 来 了 很 少 的 额外 开销 ,在 提高 数据 安全 性 的 同时 依然 具有 民 好 的 性 能 。 

随 者 云 计算 与 云 存 储 的 发 展 及 广 沁 应 用 ,其 安全 问题 会 逐步 暴露 ,服务 提供 商 也 会 积极 
采取 对 应 的 安全 措施 ,因此 有 理由 相信 云 存 储 服务 的 安全 性 会 越 来 越 强 , 并 且 服 务 质量 、 用 
户 体验 也 会 越 来 越 好 。 


5.3 MRS PASH 


因为 数据 加 密 存 储 , 数 据 拥有 者 要 与 其 他 用 户 共享 数据 时 ,就 需要 将 加 密 密 钥 分 发 给 共 
享用 户 。 因 为 云 存储 环境 下 海量 的 数据 ,数据 加 密 必 须 采 用 对 称 密码 算法 ,数据 的 安全 性 依 
赖 于 该 加 密 密 钥 的 安全 性 。 因 此 ,安全 高 效 的 密 钥 管理 机 制 非常 重要 。 

密 钥 管理 包括 密 钥 的 生成 、 密 钥 发 布 以 及 密 钥 撤销 ,下 面 将 对 这 3 个 方面 进行 介绍 。 


5.3.1 蜜 钥 生成 与 发 布 


密 钥 生成 的 关键 在 于 减少 需要 维护 的 密 钥 数量 ,并 且 可 以 有 效 进 行 密 钥 更 新 。 通 常 有 
以 下 3 种 方式 。 

(1) 随机 生成 : 有 较 好 的 保密 性 与 可 扩展 性 ,但 是 由 于 密 钥 与 文件 之 间 没 有 任何 关系 ， 
因此 不 利于 重复 数据 删除 。 

(2) 使 用 数据 明文 的 某 种 属性 生成 密 钥 : 使 得 相同 的 数据 明文 得 到 相同 的 密 钥 ,生成 
的 密 文 也 相同 ,这 种 技术 也 称 为 收敛 加 密 技 术 “” 。 这 种 方式 有 利于 重复 数据 删除 ,但 是 由 
于 明文 与 密 文 之 间 有 关系 ,削弱 了 安全 性 。 

(3) 通过 特殊 计算 生成 : 为 了 实现 某 种 特殊 的 功能 ,用 特殊 的 方式 生成 密 钥 。 比 如 门 
限 密 钥 ,将 密 钥 分 成 个 份额 ,只 有 至 少 取得 m. 个 份额 才能 够 解密 文件 。 

Geambasu 等 人 提出 的 Vanish 系统 “为 了 提供 可 信和 删除 的 功能 ,要 求 将 密 钥 分 成 n 个 
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份额 ,用 户 只 需要 取得 其 中 m. 个 份额 就 能 够 解密 文件 。 通 过 特殊 计算 生成 的 密 钥 可 以 实现 
特定 的 功能 ,但 丧失 了 一 定 的 通用 性 。 

Corslet 系统 5 利用 收敛 加 密 的 思想 提出 了 一 种 数据 自 加 密 的 方式 ,使 用 每 个 文件 块 
的 Hash 值 与 偏 移 量 作为 密 钥 ,对 文件 块 进行 加 密 。 这 种 加 密 方 式 有 如 下 几 方 面 优点 : 
中 因为 密 钥 中 包含 数据 Hash 值 , 因 此 生成 的 密 钥 可 以 用 来 校 验 数据 完整 性 。 包 更 新 数据 
的 同时 更 新 密 钥 。@ 相 同 的 明文 总 是 被 加 密 成 相同 的 密 文 ,适合 密 文 重复 数据 删除 。 

郭 晓 勇 等 人 "提出 一 个 基于 收敛 加 密 技术 的 云 安全 去 重 与 完整 性 审计 系统 ,该 系统 采 
用 基于 盲 签名 的 收敛 密 钥 封装 与 解 封 算法 ,在 安全 存储 收敛 密 钥 的 同时 可 以 实现 收敛 密 钥 
去 重 。 他 们 提出 了 基于 收敛 密 钥 的 BLS 签名 算法 ,并 利用 可 信 第 三 方 存储 审计 公 钥 和 代理 
审计 ,来 实现 对 审计 签名 和 审计 公 钥 的 去 重 ,减轻 了 客户 端 存 储 和 计算 开销 。 该 系统 能 为 云 
存储 提供 数据 隐私 保护 .重复 认证 .审计 认证 等 安全 服务 ,同时 降低 了 客户 端 、 云 端的 存储 和 
计算 开销 。 

密 钥 还 有 一 个 粒度 问题 , 即 加 密 的 数据 单位 。 比 如 ,是 每 个 数据 块 一 个 密 钥 ,还 是 一 个 
文件 一 个 密 钥 ,抑或 是 一 个 文件 组 一 个 密 钥 ,不 同 的 粒度 ,需要 管理 的 密 钥 数量 也 不 同 。 若 
粒度 大 ,需要 管理 的 密 钥 数量 就 少 , 但 相对 来 说 安全 性 减弱 ,因为 用 户 为 了 共享 一 个 文件 ,而 
不 得 不 共享 一 组 文件 的 密 钥 。 若 粒度 小 ,需要 管理 的 密 钥 数量 就 多 ,相对 来 说 比较 安全 ,可 
以 实现 细 粒 度 访问 控制 ,但 是 却 增加 了 密 钥 管理 开销 。 

关于 密 钥 分 发 ,也 有 3 种 方式 。 

。 数据 拥有 者 分 发 : 这 种 方式 最 安全 可 徘 , 但 不 实用 ,要 求 数据 拥有 者 在 线 给 共享 用 

户 提 供 密 钥 。 
© 基于 公 钥 密码 技术 : 通常 使 用 授权 用 户 的 公 钥 加 密 对 称 密 钥 ,将 此 加 密 后 的 密 钥 存 
放 在 云 上 ,由 云 服 务 器 分 发 ,授权 用 户 使 用 自己 的 私 钥 就 可 以 取得 该 对 称 密 钥 。 

。 基于 可 信 第 三 方 : 由 一 个 可 信任 的 第 三 方 帮助 数据 拥有 者 进行 密 钥 分 发 。 

基于 公 钥 密码 技术 的 密 钥 分 发 通常 采用 的 技术 有 代理 重 加 密 、 属 性 加 密 。 关 于 属性 加 
密 机 制 在 第 4 章 有 详细 阐述 。 

1998 年 ,Blaze 等 人 提出 代理 重 加 密 “” 的 概念 ,就 是 代理 人 可 以 帮助 用 户 A 为 用 户 B 
生成 密 钥 ,使 得 用 户 B. 可 以 解密 用 户 A 的 密 文 ,而 在 此 过 程 中 ,代理 人 得 不 到 任何 关于 密 文 
的 信息 。 

在 云 存 储 环境 下 ,Alice AH Bob 共享 一 个 加 密 的 文件 , Alice 只 需要 给 云 服务 提供 
商 一 个 “代理 重 加 密 密 钥 ”, 云 服务 提供 商 就 可 以 将 Alice 的 加 密 文 件 转换 成 Bob 可 以 解密 
的 密 文 。 其 中 的 “代理 重 加 密 密 钥 ”是 基于 Alice 的 私 钥 和 Bob 的 公 钥 生成 ,Bob 使 用 自己 
的 私 钥 来 解密 转换 后 的 密 文 。 因 为 代理 重 加 密 算 法 是 一 种 公 钥 密码 算法 ,其 计算 开销 比 
较 大 。 

为 了 提高 系统 的 可 用 性 ,在 系统 中 应 尽量 少 使 用 公 钥 密码 技术 ,但 是 基于 对 称 密码 技术 
的 方案 中 密 钥 管 理 相 对 复杂 。 在 本 书 作者 的 博士 学 位 论文 中 中 ,提出 了 一 个 基于 非 公 钥 密 
码 的 密 钥 共享 方案 ,但 要 将 该 方案 应 用 到 云 存 储 系 统 还 需要 进行 改进 。 所 提 的 基于 对 称 密 
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码 技术 的 密 钥 协商 方案 是 Leighton-Micali (LM) 方 案外 ,使 用 一 个 公开 的 数据 库 实现 任意 
两 方 的 密 钥 协商 ,协商 过 程 描 述 如 下 。 

安全 管理 器 (Securty Manager,SM) 随 机 生成 两 个 主 密 钥 K 和 KK“, 并 给 每 个 用 户 i 分 
发 一 个 交换 密 钥 KK; 和 一 个 独立 认证 密 钥 K;。 其 中 

R =f (Ka) K =f Ki) 

ff(。) 是 一 个 伪 随 机 函数 ,因为 只 有 SM 拥有 天 和 天 ,所 以 只 有 SM 可 以 生成 K; 和 

Ki. SM 发 布 一 个 公开 的 数据 库 P 和 A ,其 中 包含 密 钥 对 和 认证 密 钥 。 生 成 过 程 如 下 
Pua f (his) OF Git). do (RF (Rd 
当 用 户 i 希望 与 用 户 j 协商 一 个 共享 密 钥 时 ,他 读 取 公 开 值 P; MIA; ,并 计算 K;,; 
R= AR =f K 
并 通过 如 下 的 方式 认证 密 钥 
FK K;ij) = Aij 

显然 ,用 户 7 也 可 以 计算 K;,; ,因为 他 拥有 保密 密 钥 K;, 并 且 知 道 用 户 i 的 标识 ID, 
如 果 存 储 空间 足够 ,参与 方 可 以 将 公开 值 P;,; 和 A;,; 存放 在 本 地 。 

图 5-2 所 示 为 共享 密 钥 生成 过 程 ,公开 乍 阵 已 和 A4 存放 在 SM 上 ,在 密 钥 分 发 阶段 , 任 
何 用 户 之 间 可 以 协商 一 个 保密 密 钥 (K; ) 用 于 共享 文件 密 钥 和 文件 签名 密 钥 。 


K=h(K, i) —  h(K; j) 


K=h(K,j) — h(K, i) 


当 两 个 用 户 很 容易 地 协商 一 个 会 话 密 钥 时 ,共享 文件 密 钥 就 很 简单 ,但 具体 到 云 存 储 环 
境 下 大 量 的 用 户 ,还 需要 对 此 方案 进行 改进 。 


5.3.2 Pint 


当 文件 密 钥 与 其 他 用 户 共享 后 ,在 菜 个 时 间 ,数据 拥有 者 可 能 不 再 布 望 此 用 户 共享 此 文 
件 。 此 时 ,就 涉及 用 户 的 撤销 ,也 就 是 对 文件 密 钥 的 撤销 。 而 密 钥 撤销 涉及 数据 的 重 加 密 问 
题 , 即 需 要 更 新 密 钥 ,并 使 用 新 的 密 钥 重新 加 密 文件 。 密 码 操作 对 性 能 的 影响 非常 大 ,在 设 
计 系 统 时 应 尽量 避免 密码 操作 。 
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据 MIT 的 AFS 服务 器 的 7 个 月 的 日 志 , 在 2916 个 不 同 的 ACL 中 有 29 203 个 个 体 用 
户 撤销 (包括 单个 用 户 被 删除 的 次 数 ) 六 ,撤销 将 引入 大 量 开销 大 的 密码 计算 和 密 钥 发 布 操 
作 。 因 此 ,MIT 的 Cepheus? 加 密 系 统 首次 提出 Lazy Revocation 的 思想 。Lazy Revocation 是 
指 当 撤销 用 户 的 权限 时 ,不 立即 对 属于 该 用 户 的 文件 使 用 新 的 密 钥 重新 加 密 , 而 是 等 到 下 一 
次 文件 更 新 时 再 重新 加 密 。 关 于 撤销 用 户 的 密 钥 管理 ,文献 L13j 中 进行 了 有 关 的 讨论 。 相 
比 用 户 撤 销 后 立即 进行 重新 加 密 的 Aggressive Revocation, Lazy Revocation 在 性 能 上 更 具 
优势 。 

通常 密 钥 撤销 时 重 加 密 有 以 下 几 种 方式 。 
立即 重 加 密 , 即 撤销 一 个 用 户 时 ,搜索 所 有 该 用 户 能 够 访问 的 文件 ,重新 生成 文件 密 
钥 , 重 新 加 密 所 有 文件 ,并 重新 发 布 新 密 钥 给 未 撤销 的 用 户 。 如 果 在 某 一 时 刻 撤 销 
的 用 户 数 相当 多 , 重 加 密 的 开销 可 能 导致 系统 不 能 正常 工作 。 
延迟 重 加 密 ,也 叫 懒惰 撤销 (Lazy Revocation) , 即 在 下 一 次 文件 更 新 时 才 重 新 加 密 
文件 。 系 统 首 先 搜索 被 撤销 用 户 拥 有 访问 权限 的 文件 ,然后 使 用 新 的 密 钥 加 密 这 些 
文件 ,再 将 此 新 密 钥 发 布 给 未 撤销 的 用 户 。 那 么 在 更 新 前 ,所 有 被 撤销 用 户 有 访问 
权限 的 文件 的 密 钥 都 可 能 已 经 又 露 给 攻击 者 ,从 而 导致 数据 不 安全 。 
定时 重 加 密 , 此 方式 与 延迟 重 加 密 基 本 相同 ,而 且 在 重 加 密 的 时 刻 其 开销 也 可 能 导 
致 系统 不 能 正常 工作 。 

在 基于 属性 加 密 的 方案 中 ,第 4 章 有 讲 到 其 属性 撤销 的 研究 工作 。 延 迟 重 加 密 和 定时 
重 加 密 虽 然 可 以 减少 重 加 密 的 次 数 ,但 仍然 需要 重 加 密 。 

鉴于 密码 操作 开销 太 大 ,在 应 用 系统 中 应 尽量 避免 密码 操作 。 为 了 提高 系统 可 用 性 ,我 
们 提出 了 一 种 加 密 存储 系统 中 避免 用 户 文件 数据 重 加 密 的 方法 及 实现 ”… ,其 思想 也 是 基 
于 可 信 计 算 硬 件 来 实现 。 

该 方案 使 用 FPGA/ASIC 人 硬件 模块 来 实现 ,由 该 模块 存放 所 有 的 保密 密 钥 并 执行 相关 
的 密码 操作 ,以 保证 文件 密 钥 在 任何 时 候 都 不 会 又 露 给 用 户 ,但 用 户 可 以 使 用 该 密 钥 解 密 文 
件 。 使 用 硬件 实现 密码 相关 操作 可 以 提高 性 能 并 简化 密 钥 管理 。 避 人 免 重 加 密 的 方法 可 以 以 
模块 的 形式 实现 ,然后 插入 到 任何 可 用 的 文件 系统 中 。 

撤销 用 户 时 需要 重新 加 密 数 据 , 是 因为 文件 密 钥 又 露 给 了 被 撤销 的 用 户 , 那 么 如 果 不 暴 
露 文件 密 钥 ,在 撤销 用 户 的 时 候 就 不 需要 重新 加 密 。 为 了 避免 加 密 存 储 系 统 中 ,撤销 用 户 时 
需要 重新 加 密 数据 及 重新 生成 并 发 布 新 密 钥 等 一 系列 peie 
相关 操作 ,提出 一 个 避免 重 加 密 的 黑 盒 子 模型 ,要 求 文 oy 
件 密 钥 在 任何 时 候 都 不 要 骏 露 给 用 户 , 但 用 户 却 可 以 使 
用 该 密 钥 解密 文件 。 该 模型 如 图 5-3 Bron, H3 Nd 

对 黑 盒子 的 要 求 如 下 : 

d) 黑 盒子 可 以 解密 加 密 的 文件 密 钥 ,并 使 用 此 文件 密 钥 解密 数据 。 

(2) 因为 用 户 不 知道 用 于 解密 文件 密 钥 的 私 钥 ,所 以 由 黑 盒 子 生 成 公私 钥 对 ,并 将 公 针 
发 布 给 用 户 。 


明文 
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(3) 用 户 不 能 修改 黑 盒 子 的 数据 操作 流程 。 

现场 可 编程 门 阵列 (Field Programmable Gate Array, FPGA) 和 可 编程 专用 集成 电路 
(Application-Specific Integrated Circuit, ASIC) 在 密码 学 领域 的 应 用 研究 非常 广泛 。 使 用 
FPGA/ASIC 实现 的 密码 算法 有 AES,DES,SHA, HMAC 和 RSA 等 。 

文献 [45-48] 是 Rijndael 算法 的 早期 FPGA 实现 , 接 下 来 有 一 系列 的 实现 方案 -9'5. 。 
AES-ECB 128bit 使 用 FPGA 在 性 能 上 实现 最 好 的 是 Fu SAW ROU ,使 用 17 887 E 
HH .212. 5M Hz 的 时 钟 频率 ,最 高 速度 达到 27. 1Gbps。 

AES 的 第 一 个 ASIC 实现 参考 文献 [51], 随 后 也 产生 了 一 系列 的 相关 实现 方案 “'”。 
例如 ,Hodjat f) 7; REY AES-ECB 128bit 使 用 473 000 AT] .606MHz 的 时 钟 频率 ,最 高 速度 
是 77. 6Gbps。Morioko 的 方案 55] AES-Feedback 使 用 168 000 个 门 ,909MHz 的 时 钟 频 率 ， 
最 高 速度 是 11. 6Gbps。RSA 的 FPGA 实现 参考 文献 [56-58], ASIC 实现 参考 文献 L59,60 ]。 

FPGA 实现 的 优点 包括 高 速 专 用 的 便 件 结构 、 灵 活 的 软件 平台 、 较 低 的 成 本 ; ASIC 实 
现 的 特点 是 优化 结构 可 以 使 用 更 少 的 电路 ,具有 更 高 的 操作 效率 ,低能 耗 , 但 是 设计 和 实现 
复杂 、 耗 时 、 成 本 较 高 ,一旦 实现 后 就 不 能 更 改 , 因 此 不 适用 于 经 和 常 改 变 的 环境 。 

FPGA 通过 配置 文件 设置 工作 模式 ,其 配置 文件 是 二 进 制 文件 ,目前 还 无 反 编译 破解 方 
法 ; FPGA 的 工作 模式 ,除了 设计 者 ,其 工作 模式 是 保密 的 。 而 ASIC 电路 一 旦 实现 ,就 不 
能 更 改 , 那 么 可 以 把 电路 设置 成 固定 的 工作 模式 。 因 此 ,无 论 是 FPGA 还 是 ASIC oth Hr Ab 
足 黑 盒子 的 要 求 。 已 经 有 大 量 的 ASIC/FPGA 密码 应 用 研究 ,性 能 相当 好 。 让 所 有 数据 流 
都 经 过 FPGA 或 ASIC 芯片 模块 来 解密 ,文件 密 钥 只 在 FPGA 或 ASIC 芯片 中 以 明文 形式 
存在 ,因此 密 钥 在 任何 时 候 都 不 会 暴露 给 用 户 。 此 外 ,在 加 密 存储 系统 中 使 用 FPGA/ASIC 
芯片 还 具有 以 下 优势 。 

(1) 通过 专用 硬件 实现 密码 相关 操作 ,可 以 提高 性 能 。 

(2) 从 特定 端口 来 的 数据 直接 送 往 FPGA/ASIC 芯片 ,避免 复制 和 上 下 文 切换 。 

西北 工业 大 学 的 苗 胜 等 人 实现 了 基于 FPGA 蕊 片 的 硬盘 数据 加 密 系 统 “" ,该 系统 支持 
常用 对 称 加 密 算法 (DES、3DES、AES) 和 用 户 自主 开发 的 各 种 对 称 加 密 算法 ,并 实现 了 一 种 
基于 FPGA 芯片 的 直 搬 型 便 盘 数据 加 密 卡 ,其 对 DES 算法 的 加 解密 速度 达到 了 200Mbps。 


5.4 密 文 重复 数据 删除 


重复 数据 删除 是 一 种 数据 缩减 技术 ,通常 用 于 基于 磁盘 的 备份 系统 , 则 在 提高 存储 系统 
的 利用 率 。 云 存储 服务 通 筑 依据 传输 与 存储 的 数据 量 以 及 使 用 时 间 计 费 。 对 于 用 户 来 说 ， 
希望 减少 传输 和 存储 的 数据 量 来 降低 成 本 ,这 就 涉及 重复 数据 的 删除 ; 对 于 云 服 务 提供 商 
来 说 ,也 希望 通过 重复 数据 删除 技术 节约 基础 设施 成 本 ,同时 保障 用 户 数 据 的 可 用 性 。 

根据 对 目前 存储 系统 中 重复 数据 删除 技术 的 研究 ,基于 数据 分 布 的 不 同 ,有 效 的 重复 数 
据 删 除 能 够 节省 高 达 50% 甚 至 90% 的 存储 空间 和 和 带宽。 

根据 部 署 位 置 的 不 同 , 可 分 为 客户 端 重复 数据 删除 (Client Side Deduplication ,CSD) 和 
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服务 器 端 重复 数据 删除 (Server Side Deduplication ,SSD) 。 客 户 端 重复 数据 删除 是 先 删除 
重复 数据 ,再 将 数据 备份 ; 而 服务 融 端 重复 数据 删除 是 先 将 数据 发 送 到 服务 天 ,实际 存储 时 
再 删除 重复 数据 。 

根据 被 删除 数据 的 粒度 ,重复 数据 删除 可 分 为 文件 级 重复 数据 删除 (File Level 
Deduplication ,FLD) 和 块 级 重复 数据 删除 (Block Level Deduplication, BLD)。 文 件 级 重复 
数据 删除 可 以 保证 文件 不 重复 ; 而 块 级 重复 数据 删除 则 保证 数据 块 不 重复 ,是 将 文件 分 成 
数据 块 进 行 比较 。 根 据 切 分 数据 块 方法 的 不 同 , 块 级 重复 数据 删除 又 可 分 为 定 长 块 重 复数 
据 删 除 和 变 长 块 重复 数据 删除 。 定 长 块 重复 数据 删除 时 ,数据 块 的 大 小 是 固定 的 ; 而 变 长 
块 重复 数据 删除 时 ,数据 块 的 大 小 是 变化 的 。 

根据 执行 数据 删除 的 文件 范围 ,可 分 为 路 用 户 重 复数 据 删 除 (Cross User Deduplication. 
CUD) 和 本 地 重复 数据 删除 (Local Data Deduplication. LDD) 。 

重复 数据 删除 既 能 够 通过 人 硬件 也 可 以 通过 软件 来 实现 ,还 可 以 将 两 者 结合 来 实现 。 相 
同 地 ,重复 数据 删除 既 可 以 在 客户 端 进 行 ,也 可 以 在 服务 器 端 进行 ,或 者 两 者 兼 而 有 之 。 通 
笛 为 了 节省 传输 市 宽 和 提高 传输 效率 ,可 以 考虑 采用 客户 端 重复 数据 删除 。 

明文 重复 数据 删除 可 以 根据 内 容 直 接 判 断 是 否 为 重复 数据 ,但 数据 一 旦 加 密 ,特别 是 为 
了 保护 数据 的 机 密 性 ,通常 使 用 不 同 的 密 钥 或 者 加 入 一 些 初始 回 量 使 得 相同 的 明文 被 加 密 
成 不 同 的 密 文 ,从 而 使 得 密 文 重复 数据 删除 变 得 困难 。 

为 了 保护 数据 的 机 密 性 ,可 以 对 数据 进行 加 密 , 但 数据 加 密 的 安全 性 究竟 怎样 ? 1949 
年 ,信息 论 的 创始 人 香农 ”从 信息 论 的 角度 提出 信息 论 安全 (Information Theoretic Security) 
的 概念 ,从 信息 焙 的 角度 分 析 了 信息 系统 的 安全 性 。 

使 用 信息 论 安全 的 加 密 算法 对 数据 进行 加 密 后 ,对 于 一 个 没有 密 钥 的 用 户 来 说 ,将 得 不 
到 任何 关于 明文 的 信息 , 即 其 能 获得 的 信息 炉 为 0。 但 在 实际 应 用 中 ,这 样 的 算法 是 不 存在 
的 或 者 实现 的 成 本 太 高 而 不 实用 。 只 有 “一 次 一 密 ” 加 密 算法 可 以 满足 这 个 要 求 ,就 是 密 钥 随 
机 生成 而 且 只 使 用 一 次 。 不 过 ,这 样 将 使 得 共享 密 钥 与 共享 数据 明文 一 样 困 难 , 因 而 不 实用 。 
所 以 在 实际 应 用 中 ,无 法 实现 信息 论 安 全 的 加 密 算法 ,只 能 实现 计算 安全 (Computationally 
Secure) 的 加 密 算法 。 假 设 攻击 者 的 计算 能 力 是 有 限 的 ,那么 所 采用 的 加 密 算法 对 于 攻击 者 
的 计算 能 力 来 说 ,是 无 法 破解 的 即 可 。 

为 了 度量 一 个 加 密 算法 的 可 计算 安全 性 ,1982 年 Goldwasser 和 Micali‘ 提出 了 语义 
安全 (Semantic Security) 的 概念 ,如 果 已 知 某 个 明文 的 密 文 不 会 泄露 任何 有 关 该 明文 的 信 
A, , 则 称 该 密 文 是 语义 安全 的 。 

香农 的 信息 论 安 全 表示 密 文 不 会 泄露 任何 明文 信息 ,而 语义 安全 则 表示 已 泄露 的 密 文 
不 会 泄露 任何 明文 信息 。 在 语义 安全 的 对 称 密码 算法 中 , 硅 给 攻击 者 两 段 相同 长 度 的 明文 
和 其 中 一 段 明文 的 密 文 ,攻击 者 不 能 分 辨 该 密 文 所 对 应 的 明文 。 

1984 年 , Goldwasser 和 Micalics5 证 明了 语义 安全 与 密 文 不 可 区 分 性 ( Ciphertext 
Indistinguishability) 是 等 价 的 ,而 密 文 不 可 区 分 性 在 实际 应 用 时 ,更 容易 用 于 检验 加 密 算法 
的 安全 性 。 密 文 不 可 区 分 性 是 指 , 如 果 给 出 两 段 明 文 , 随 机 选择 一 段 明 文 加 密 得 到 密 文 , 攻 
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击 者 将 不 能 区 分 该 密 文 对 应 哪 一 段 明 文 。Goldwasser 和 Micali 也 因为 他 们 在 这 方面 的 开 
创 性 工作 而 获得 2013 年 ACM 图 灵 奖 。 

要 证 明 一 个 加 密 算法 是 安全 的 ,通常 要 证 明 它 满足 密 文 不 可 区 分 性 , 即 敌 手 不 能 断定 加 
密 的 是 否 为 相同 的 数据 ,因此 安全 的 加 密 算 法 , 即 满 足 密 文 不 可 区 分 性 或 语义 安全 的 加 密 算 
法 是 不 文 持 重复 数据 删除 的 。 

既然 安全 的 加 密 算法 不 文 持 重 复数 据 删 除 , 而 且 因 为 不 同 用 户 的 加 密 密 钥 是 不 同 的 ,所 
以 相同 的 文件 被 不 同 的 用 户 加 密 也 将 得 到 不 同 的 密 文 ,那么 要 执行 密 文 重复 数据 删除 ,就 要 
解决 以 下 几 个 问题 。 

(1) 如 何 判 定 多 个 密 文 是 否 来 日 于 相同 的 明文 , 即 如何 实 现 重复 性 检测 。 

(2) 如 何 确 定 哪 些 用 户 拥有 该 文件 , 即 如 何 实现 数据 拥有 证 明 。 

(3) 如 何在 不 同 的 用 户 间 共 至 被 执行 重复 数据 删除 的 文件 , 即 如 何 实现 密 钥 共享 。 

(4) 如 何 保证 实施 方案 的 安全 性 , 即 如 何 应 对 各 类 攻击 。 

因此 ,目前 密 文 重复 数据 删除 仍然 停留 在 使 用 特殊 的 加 蜜 方式 ,使 得 相同 的 内 容 加 密 成 
相同 的 密 文 。 

2002 年 ,Douceur 等 人 5 提出 基于 收敛 加 密 (Convergent Encryption) 的 密 文 重复 数据 
删除 方案 。 该 方案 将 数据 内 容 的 Hash 值 作为 密 钥 加 密 数据 ,使 得 相同 的 数据 被 加 密 成 相 
同 的 密 文 ,从 而 实现 重复 数据 删除 。 在 Douceur 等 人 “的 工作 基础 上 ,Storer 等 人 ”研究 
了 相关 的 密 钥 管理 问题 ,提出 一 种 基于 认证 和 匿名 的 密 文 重复 数据 删除 方案 。 该 方案 利用 
收敛 加 密 技 术 ,使 得 相同 的 数据 明文 的 加 密 密 钥 相同 ,因此 在 相同 的 加 密 模 式 下 生成 的 数据 
密 文 也 相同 ,这 样 就 可 以 使 用 传统 的 重复 数据 删除 技术 进行 删 元 。 

此 后 , 收 钱 加 密 技 术 被 用 于 很 多 重复 数据 删除 系统 中 ,如 Bitcasa (http: // www. bitcasa. 
com/) Ciphertite(http://www. ciphertite. com) ,flud (http://flud. org) , Freenet(https:// 
freenetproject. org/) .GNUnet(http://gnunet. org)。 一 些 常 用 的 网 盘 系 统 , 如 Dropbox, 
SpiderOak 和 Wuala 等 也 都 采用 了 重复 数据 删除 技术 。 

但 是 ,因为 基于 收敛 加 密 的 方案 的 加 密 密 钥 依赖 于 明文 信息 ,所 以 容易 遭受 离线 穷 举 攻 
击 (Offline Brute-force Attack) , 

2013 年 ,Bellare && AU" 提出 消息 锁定 加 密 (Message-Locked Encryption. MLE) f£ 7, 
同时 提出 PRV $-CDA (Strong Privacy-Chosen Distribution Attacks) 安 全 性 概念 ,并 证 明 
T PRV $-CDA 比 其 他 相关 的 安全 性 更 蝇 。 其 中 ,PRV $ 表示 与 随机 数 不 可 区 分 ,CDA 是 
指 选择 分 布 攻击 ,PRV$-CDA 表示 攻击 者 不 能 区 分 密 文 与 同等 长 度 的 随机 数 。 在 Bellare 
等 人 提出 的 框架 中 ,MLE 加 密 算法 中 的 密 钥 是 从 明文 计算 得 到 的 ,可 以 将 收敛 加 密 看 作 是 
MLE 的 一 个 特例 。MLE 可 以 使 相同 的 明文 被 加 密 成 相同 的 密 文 ,从 而 支持 重复 数据 删除 。 
在 MLE 框架 下 ,收敛 加 密 被 证 明 满 足 PRV $ -CDA 安全 性 。 但 MLE 无 法 满足 语义 安全 的 
要 求 。 

以 上 工作 也 都 没有 针对 基于 相同 明文 产生 不 同 密 文 的 问题 提出 解决 方案 。 

由 于 相同 的 文件 被 不 同 用 户 使 用 不 同 的 密 钥 加 密 后 ,相同 的 文件 被 加 密 成 不 同 的 密 文 ， 
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使 得 云 服务 器 无 法 执行 重复 数据 删除 ,因此 研究 者 们 提出 了 基于 可 信 第 三 方 的 密 文 重复 数 
HERI RS, 

为 了 克服 MLE 类 型 加 密 方 案 中 存在 的 离线 穷 举 攻击 问题 ,Bellare 等 人 提出 一 种 基于 
可 信 第 三 方 的 密 文 重复 数据 删除 方案 DupLESSU! 。 该 方案 由 第 三 方 服务 器 使 用 私 钥 对 数 
据 签 名 ,然后 将 该 签名 作为 随机 数 生 成 需 的 种 子 生 成 加 密 密 钥 。 该 方法 称 为 带 签名 的 加 密 
(Encryption with Signature. EwS) 。 

We Cn a A MLE 加 密 算法 都 属于 公开 加 密 算法 ,任何 人 只 要 拥有 数据 ,就 可 以 生成 合 
法 的 密 文 ,所 以 它们 的 安全 性 依赖 于 数据 本 身 的 随机 性 。 并 且 MLE 加 密 算 法 允许 进行 相 
等 检测 ,所 以 只 能 保护 具有 足够 大 的 最 小 炉 (Min-Entropy) 的 数据 , 即 数据 必须 是 不 可 预测 
的 ,否则 攻击 者 可 以 从 密 文中 获取 信息 。 

针对 PRV $ -CDA 安全 性 对 于 某 些 应 用 来 说 安全 强度 不 够 ,Duan“ 提出 一 种 基于 第 三 
方 服务 器 辅助 的 密 文 重复 数据 删除 方案 。MLE 加 密 算 法 采用 公开 加 密 是 为 了 让 不 同 的 用 
户 对 相同 的 明文 加 密 得 到 相同 的 密 文 ,从 而 方便 重复 数据 删除 。 而 Duan 提出 采用 第 三 方 
服务 器 辅助 的 方式 ,由 第 三 方 服务 器 为 用 户 生 成 加 密 所 需要 的 密 钥 和 初始 向 量 , 同 时 也 保证 
数据 的 收敛 特征 。 有 了 第 三 方 服务 器 ,所 有 用 户 不 再 知道 密 钥 ,从 而 不 再 是 公开 加 密 。 

该 方案 采用 Threshold Signature 技术 , 即 一 种 分 布 式 的 数字 签名 生成 方法 ,将 签名 所 
用 的 密 钥 分 布 存 储 于 多 个 节点 ,使 得 任何 小 于 上 个 节点 联合 起 来 , 既 不 能 够 计算 出 签名 的 密 
EH ,也 不 能 够 生成 正确 的 签名 ,只 有 大 于 上 个 节点 联合 起 来 才能 够 生成 正确 的 签名 。 这 一 特 
性 使 得 Threshold Signature 既 具 有 更 高 的 安全 性 ,也 有 更 好 的 容错 能 力 。 用 在 EwS E. 
名 的 密 钥 不 再 由 单一 的 服务 需 维 护 ,而 是 分 布 在 所 有 用 户 中 。 当 一 个 用 户 需要 加 密 时 ,他 回 
大 于 t 个 其 他 用 户 发 出 请 求 , 在 足够 多 的 用 户 的 协助 下 生成 签名 ,再 使 用 EwS 方式 加 密 。 

文中 他 们 提出 了 D-IND$ -CPA 安全 性 概念 ,D-IND$ 是 指 与 随机 串 的 确定 性 不 可 区 
分 (Deterministic Indistinguishability from Random Strings). CPA 是 指 选 择 明 文 攻 击 
(Chosen Plaintext Attacks)。 他 们 证 明 D-IND $-CPA 的 安全 性 严格 强 于 PRV $-CDA. 
与 PRV$ -CDA 类 似 ,D-IND$ -CPA 也 意味 着 攻击 者 不 能 区 分 密 文 与 等 长 的 随机 数 ,但 D- 
IND $ -CPA 不 再 要 求 数据 的 分 布 具有 足够 大 的 最 小 箭 ,从 而 可 以 保护 可 预测 性 比较 高 的 数 
据 。 作 者 也 证 明了 EwS 模式 ,无论 是 单机 的 还 是 分 布 式 的 ,只 泄露 数据 相等 的 信息 ,而 该 信 
息 是 目前 数据 去 重 手 段 所 依赖 的 ,因此 表明 EwS 是 支持 去 重 条 件 下 所 能 达到 的 最 强 的 安全 
性 , 它 也 满足 D-IND $-CPA 安全 性 。 与 DupLESS 相 比 ,该 方案 的 另 一 个 优点 是 它 是 分 布 
式 的 , 它 可 以 不 需要 可 信 第 三 方 , 而 将 服务 部 署 在 用 户 中 。 

Armknecht 等 人 中 提出 在 用 户 和 云 服务 器 之 间 设 置 一 个 网 关 , 由 网 关 执 行 接 入 控制 ， 
从 而 实现 跨 用 户 的 文件 级 重复 数据 删除 。 在 用 户 端 采用 基于 Merkle Hash 树 的 包含 了 可 
接 入 当前 文件 的 用 户 信 息 的 可 证 基数 累加 器 ,可 以 验证 文件 的 有 效 接 入 ,通过 上 传 相 同文 件 
的 用 户 数 来 验证 其 存储 资费 的 合理 性 。 为 保护 文件 累加 器 的 信息 和 特定 文件 的 累加 结果 ， 
采用 可 验证 但 不 可 预测 的 时 间 相 关 随 机 数 产生 需 选 取 被 公开 文件 的 累加 器 信息 。 采 用 基于 
服务 需 协 作 的 密 钥 产生 协议 及 报 文 加 锁 加 密 技 术 保 护 用 户 文件 信息 ,从 而 防止 骏 力 穷 举 攻 
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击 。 网 关 则 采用 文件 所 有 权证 明 机 制 来 防止 恶意 用 户 非 法 接 和 人 文件 。 

如 前 所 述 , 郭 晓 勇 等 人 ”提出 了 一 个 基于 收敛 加 密 技术 的 云 安全 去 重 与 完整 性 审计 系 
5t ,该 系统 采用 基于 育 签 名 的 收敛 密 钥 封装 与 解 封 算法 ,在 安全 存储 收敛 密 钥 的 同时 可 以 实 
现 收敛 密 钥 去 重 。Stanek 等 人 -提出 了 将 数据 分 为 热度 数据 与 非 热 度数 据 。 非 热度 数据 
对 数据 隐私 性 要 求 较 高 ,采用 语义 安全 的 对 称 加 密 算法 进行 加 密 ; 对 于 热度 数据 , 则 使 用 收 
敛 加 蜜 算法 进行 加 密 ,同时 采用 执行 效率 较 高 的 客户 端 重复 数据 删除 技术 ,通过 比较 收敛 加 
密 蜜 文 的 哈 布 值 判断 数据 是 否 已 存储 在 云 服务 需 , 如 果 已 经 存储 , 则 不 用 再 次 上 传 。 该 方案 
在 一 定 程 度 上 提高 了 系统 的 执行 效率 。 

Puzio 等 人 一 等 设计 了 云 存 储 系统 下 的 块 级 密 文 重复 数据 删除 方案 ,在 收敛 加 密 的 
基础 上 引入 了 额外 的 加 密 操作 和 访问 控制 机 制 以 抵御 离线 穷 举 攻 击 。Cui 等 人 -提出 基于 
密 文 策略 属性 加 密 算 法 和 混合 云 技术 的 云 中 加 密 数 据 重 复 删除 方案 ,但 该 方案 的 安全 性 假 
设 较 强 且 执行 效率 较 低 。 

基于 可 信 第 三 方 的 方案 实现 较为 简单 ,但 是 会 降低 方案 的 安全 性 与 使 用 效率 。 对 此 ， 
Liu 等 人 "提出 基于 口令 认证 的 密 钥 交换 (Password Authenticated Key Exchange. PAKE) 的 
服务 帮 端 重复 数据 删除 方案 。 

由 于 用 户 习 惯 选择 低 炉 的 信息 作为 口令 ,因此 基于 口令 的 认证 协议 容易 遭受 离线 穷 举 
攻击 。 针 对 这 个 问题 ,Bellovin 等 人 ”首次 提出 基于 PAKE 的 方案 。 在 该 方案 中 ,双方 只 
任 低 炉 口 令 即 可 在 安全 信道 中 协商 出 高 炉 密 钥 , 使 攻击 者 在 未 使 用 口令 进行 在 线 认证 的 前 
提 下 无 法 对 密 钥 进行 猜测 。 

Liu 等 人 “的 方案 不 需要 可 信 第 三 方 就 可 以 实现 跨 用 户 的 重复 数据 删除 ,并 且 该 方案 
由 用 户 在 本 地 加 密 数 据 ,同时 可 防御 恶意 用 户 或 服务 硕 发 起 的 骏 力 攻击 。 用 户 上 传 文件 到 
云 服 务 希 时 ,首先 对 文件 计算 Hash 值 ,并 根据 预 设 的 短 Hash 困 数 计算 文件 的 短 Hash 值 ， 
然后 将 该 短 Hash 值 发 送 给 服务 硕 。 服 务 需 根据 该 短 Hash 值 找 出 具有 相同 短 Hash 值 的 
用 户 集合 ,通知 该 集合 中 用 户 分 别 通过 PAKE 算法 判断 他 们 的 文件 是 否 相 同 。 若 相同 , 则 
该 用 户 可 以 通过 PAKE 算法 得 到 集合 用 户 加 密 文 件 的 密 钥 ,否则 表明 服务 关上 没有 该 文 
件 , 用 户 将 使 用 随机 密 钥 加 密 文 件 , 并 上 传 到 云 服务 器 。 云 服务 器 接收 到 该 密 文 后 检查 是 否 
已 经 存储 该 密 文 , 硅 有 , 则 丢弃 该 密 文 ,同时 将 用 户 加 入 到 该 服务 右上 此 密 文 的 允许 接 入 列 
表 中 ,否则 保存 该 密 文 。 为 了 防止 恶意 服务 需 发 起 的 在 线 骏 力 攻击 ,比如 恶意 服务 顺 癌 用 户 
发 送 伪造 的 PAKE 请 求 或 应 答 来 猜测 文件 内 容 , 该 方案 对 单个 文件 的 访问 次 数 做 了 限制 ， 
如 果 一 个 用 户 对 某 个 文件 的 PAKE 请 求 次 数 超过 该 限制 值 , 系 统 将 忽略 其 请 求 。 

针对 公共 云 环境 下 用 户 密 钥 多 样 性 造成 的 重复 数据 删除 困难 , 且 依 赖 于 可 信 第 三 方 容 
易 造 成 安全 性 与 执行 效率 低下 , 张 昌 光 等 人 “提出 一 种 无 可 信 第 三 方 的 加 密 重 复数 据 安全 
删除 方案 。 该 方案 结合 PAKE 协议 与 双 线 性 映射 构建 加 密 数据 元 余 性 识别 算法 ,构造 数据 
流行 度 查询 标签 (Popularity Check Tag. PCT) ,使 用 PCT 识别 数据 的 热度 ,其 查询 过 程 不 
会 泄露 数据 的 任何 明文 信息 。 采 用 同 态 加 密 算法 设计 加 密 密 钥 传递 算法 ,初始 上 传 者 能 够 
通过 云 服务 副将 加 密 密 钥 安全 传递 至 后 继 上 传 者 。 初 始 上 传 者 通过 PCT 判断 后 继 上 传 者 


102 | 云 存 储 安全 一 一 大 数据 分 析 与 计算 的 基石 


的 合法 性 ,并 使 用 同 态 加 密 算法 将 非 热度 数据 的 加 密 密 钥 安全 传递 至 合法 后 继 上 传 者 。 持 
有 相同 数据 的 用 户 能够 获取 相同 加 密 密 钥 ,使 云 服 务 需 能 够 实现 加 密 数 据 重 复 删 除 。 对 于 
隐私 度 较 低 的 热度 数据 ,可 以 安全 执行 客户 端 重 复数 据 删 除 。 

同时 ,他们 又 提出 一 种 无 需 可 信 第 三 方 的 基于 离线 密 钥 分 发 的 加 密 数 据 重 复 删 除 方 
RUS 。 该 方案 通过 构造 双 线 性 映射 来 验证 加 密 数 据 是 否 源 自 同一 明文 ,并 利用 广播 加 密 技 
术 实 现 加 密 密 钥 的 安全 存储 与 传递 。 任 意 数据 的 初始 上 传 者 能 够 便 助 云 服务 器 ,以 离线 方 
式 验 证 后 继 上 传 者 的 合法 性 并 传递 数据 加 密 密 钥 。 

Harnik 4& AU? FX} DropBox 和 MozyHome 等 流行 云 存 储 服务 ,分 析 并 揭示 了 基于 客 
户 端 的 重复 数据 删除 系统 可 能 遭受 文件 识别 攻击 和 文件 内 容 识 别 攻击 等 安全 威胁 。 文 献 
[80-83j 也 对 密 文 重复 数据 删除 进行 了 人 研究 。 


5.5 加 密云 数据 库 


云 存 储 环境 下 的 数据 库 系统 与 传统 数据 库 有 很 大 区 别 , 它 运行 在 数据 库 服务 右上 。 因 
为 云 环 境 的 不 可 信人 性 ,要 保证 数据 库 系统 的 机 密 性 ,需要 对 数据 库 系统 的 数据 进行 加 密 存 
储 。 但 是 数据 加 密 后 怎样 进行 数据 查询 以 及 处 理 是 吸 竺 解决 的 问题 。 

2006 年 ,Agrawal 等 人 "提出 基于 安全 协 处 理 器 的 加 密 数据 库 查询 系统 。 为 了 避免 可 
信和 硬件 成 为 性 能 瓶颈 ,并 提高 主机 利用 效率 ,该 系统 把 大 部 分 工作 交 给 主机 执行 ,只 将 少量 
与 安全 相关 的 工作 交 给 安全 协 处 理 硕 执行 。 

2011 年 ,Bajaj 等 人 ”提出 基于 可 信 硬 件 的 加 密 数 据 库 系统 TrustedDB, 实 现 不 可 信 云 
环境 下 保护 用 户 隐私 的 数据 查询 。 其 核心 思想 也 是 将 一 些 需 要 保护 隐私 的 数据 操作 任务 交 
给 可 信 便 件 执行 。 该 系统 可 以 实现 明文 数据 库 支 持 的 各 类 数据 查询 操作 。 

2011 年 ,Popa 等 人 ”提出 加 密 数据 库 查 询 系统 CryptDB, 能 够 实现 用 户 对 存储 在 SQL 
数据 库 中 的 数据 进行 多 种 查询 操作 : order comparison、equality checks、join、aggregate。 该 
系统 引入 一 个 可 信 代 理 MySQL-Proxy, 对 用 户 的 SQL 查询 关键 字段 进行 加 密 ,并 且 依 然 保 
证 SQL 语句 的 语法 要 求 , 然 后 发 送 给 MySQL-Server, MySQL-Server 处 理 完 成 后 返回 加 
密 的 数据 给 MySQL-Proxy, 由 MySQL-Proxy 将 数据 解密 后 返回 给 用 户 。 

CryptDB 利用 同 态 加 密 技 术 实 现 密 文 数据 的 计算 。 作 者 提出 一 种 结合 概率 加 密 、 确 定 
性 加 密 、 同 态 加 密 以 及 保 序 加 密 等 多 种 加 密 算 法 的 洋 萤 加 密 技术 (Onion Encryption) ,使 得 
查询 过 程 只 需要 少量 的 同 态 加 密 运 算 。 洋 瓯 加 密 技 术 的 思想 是 将 安全 性 最 强 的 加 密 算法 放 
在 最 外 层 加 密 或 解密 ,在 中 间 层 次 使 用 安全 性 稍 弱 的 加 密 算 法 ,在 需要 文 持 某 类 操作 的 时 
候 , 才 对 最 强 的 加 密 算 法 进行 部 分 解密 以 实现 特定 操作 。 虽 然 全 同 态 加 密 技 术 开 销 很 大 ,但 
是 对 于 数据 库 系 统 来 说 ,查询 过 程 只 需要 少量 的 同 态 加 密 运 算 , 并 且 该 系统 结合 了 洋葱 加 密 
技术 ,使 数据 库 可 以 根据 查询 负载 调整 加 密 方法 ,实现 安全 性 与 可 用 性 的 平衡 。 

与 CryptDB 一 样 ,由 麻 省 理工 学 院 人 工 智 能 实验 室 Tu 等 人 开发 的 加 密 数 据 库 系 统 
Monomi, 使 服务 需 可 以 根据 负载 选择 适当 的 物理 设计 ,并 且 可 以 实现 敏感 数据 在 便 盘 和 内 
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存 中 都 保持 加 密 状 态 。 

Tetali && A 和 Stephen 4 A"! Y CryptDB 的 基础 上 提出 MrCrypt 和 Crypsis, MrCrypt 
是 一 个 应 用 于 Hadoop 中 的 并 行 计算 模型 MapReduce 的 密 文 查询 系统 ,Crypsis 是 一 个 用 
于 支持 如 Pig Latin 高 级 数据 流 语言 的 系统 ,两 者 都 使 用 Paillier 和 EGM 方案 分 别 实现 密 
文 数据 的 加 法 和 乘法 同 态 运算 。 

2013 年 ,Arasu 等 人 "提出 加 密 数 据 库 系 统 Cipherbase, 该 系统 结合 定制 的 可 信 硬 件 
扩展 微软 的 SQL Server 以 有 效 地 执行 各 类 数据 库 查询 功能 。 他 们 详细 介绍 了 基于 FPGA 
的 可 信 便 件 实现 安全 相关 操作 的 设计 与 实现 ,可 以 保证 敏感 数据 无 论 在 人 硬盘 还 是 在 内 存 中 
都 保持 加 密 状 态 , 也 可 以 保证 可 信 便 件 中 的 程序 状态 的 安全 性 。 

此 外 ,一 些 云 服务 提供 商 的 云 数据 库 系统 也 实现 了 机 密 性 保护 。Google 的 Google 
Cloud SQL 数据 库 服务 中 ,数据 将 月 动 加 密 ,保证 数据 符合 SSAE 16 ISO 27001, PCI DSS 
v3. 0 和 HIPAA 的 合 规 性 要 求 。Google 的 基础 架构 提供 各 种 存储 服务 以 及 中 央 密 钥 管 理 
服务 ,Google 的 大 多 数 应 用 均 通 过 这 些 存储 服务 间接 访问 物理 存储 。 通 常 可 以 将 存储 服务 
配置 为 使 用 中 央 密 钥 管 理 服务 中 的 密 钥 对 数据 进行 加 密 , 然 后 再 将 数据 写 人 物理 存储 。 可 
以 将 密 钥 与 用 户 关 联 , 中 央 密 钥 管 理 服务 支持 目 动 密 钥 更 蔡 。 

其 他 云 数 据 库 系 统 , 如 阿里 云 的 云 数 据 库 RDS(Relational Database Service) ,微软 的 
SQL Azure 以 及 亚马逊 的 Relational Database Service 都 支持 透明 数据 加 密 。 

关于 云 环境 下 数据 库 机 密 性 保护 技术 的 研究 工作 可 以 参考 文献 L90]。 


5.6 存在 的 问题 与 未 来 发 展 方 回 


自从 有 了 存储 安全 需求 以 来 ,就 有 了 加 密 存 储 系 统 。 因 此 ,对 于 加 密 存 储 系 统 的 研究 已 
经 非常 成 熟 。 现 有 的 加 密云 存储 系统 也 是 借鉴 以 前 的 研究 工作 ,进行 一 定 的 改进 或 引入 最 
新 的 信息 安全 与 密码 学 技术 ,用 于 满足 用 户 不 断 增 长 的 安全 性 与 性 能 要 求 。 综 合 已 有 的 研 
究 工 作 ,加 密云 存储 系统 仍然 存在 以 下 问题 。 

(1) 系统 规模 与 可 扩展 性 问题 ,因为 加 密云 存储 系统 中 加 解密 操作 开销 较 大 , 且 随 着 用 
户 数量 的 增长 ,其 开销 呈 线 性 增长 。 怎 样 平 衡 系 统 的 可 扩展 性 与 可 用 性 需求 ,使 系统 规模 增 
长 时 ,仍然 提供 较 好 的 数据 可 用 性 是 需要 解决 的 问题 。 

(2) 密 文 重复 数据 删除 问题 ,虽然 已 经 取得 了 丰硕 的 研究 成 果 , 但 仍然 需要 在 安全 性 、 
可 用 性 以 及 是 否 存 在 可 信 第 三 方 等 方面 进行 权衡 。 

(3) 加 密 数 据 共享 时 的 密 钥 分 发 与 撤销 问题 ,基于 公 钥 密码 技术 的 密 钥 分 发 技术 开销 
较 大 ,特别 当 用 户 数据 量 大 时 ,而 基于 对 称 密码 技术 的 方案 的 管理 非常 复杂 。 当 要 撤销 用 户 
时 ,需要 更 新 密 钥 并 重新 加 密 数 据 , 也 会 市 来 很 大 的 性 能 开销 。 

(4) 可 信人 硬件 和 安全 协 处 理 器 的 实施 问题 ,因为 密码 操作 开销 较 大 ,引入 可 信和 硬件 和 安 
全 协 处 理 硕 有 利于 提高 系统 效率 ,改进 用 户 使 用 体验 ,但 是 基于 可 信人 硬件 的 方案 通常 与 具体 
的 系统 密切 相关 ,还 没有 一 个 通用 的 基于 可 信人 硬件 的 框架 可 以 适用 于 所 有 系统 。 
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O 有 较 多 基于 同 态 加 密 技 术 的 密 文 数据 处 理 方 案 , 但 是 因为 同 仿 加 密 技 术 是 一 种 公 
钥 密码 ,当前 还 没有 较 高 效 的 同 态 密码 算法 ,所 以 有 些 基于 同 态 加 密 技 术 的 方案 对 于 目前 的 
处 理 效率 来 说 并 不 可 用 。 

(6) 基于 虚拟 机 监控 器 的 数据 加 密 方 案 可 以 防止 用 户 数 据 泄 露 给 其 他 用 户 , 但 是 却 不 
能 防止 管理 虚拟 机 的 云 存储 服务 提供 商 获 取 数 据 。 

以 上 存在 的 问题 也 为 未 来 的 研究 指明 了 方向 ,即使 加 密 存 储 系统 已 经 发 展 了 几 十 年 , 提 
出 了 很 多 解决 方案 ,但 面 对 新 的 环境 仍然 面临 新 的 挑战 ,仍然 有 很 多 问题 需要 解决 。 


5.7 本章 小 结 


本 革 首 先 分 析 了 云 存储 环境 下 加 密 存 储 系统 面临 的 新 的 挑战 ,指明 人 研究 中 要 解决 的 问 
题 ; 然后 介绍 了 加 密云 存储 系统 的 发 展 , 从 网 络 存储 系统 开始 ,介绍 非 共 享 的 加 密 文 件 系统 
如 何 发 展 到 共享 的 加 蜜 文件 系统 ,并 介绍 了 云 环境 下 几 个 知名 云 服务 提供 商 的 加 密 存 储 系 
统 ; 接着 介绍 了 加 密云 存储 系统 中 的 密 钥 管理 ,包括 密 钥 生成 与 发 布 以 及 密 钥 撤销 ; 然后 
介绍 了 密 文 重复 数据 删除 和 加 密云 数据 库 方面 的 研究 工作 以 及 产业 界 的 实践 : 最 后 总 结 了 
仍然 存在 的 问题 和 未 来 发 展 方向 。 
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信息 检索 是 我 们 访问 数据 的 重要 方式 。2009 年 ,精神 病 学 教授 盖 里 。 斯 英 尔 (Gary W 
Small) 等 人 发 表 了 研究 论文 《谷歌 上 的 大 脑 : 互联 网 搜索 中 的 大 脑 激 活 模式 》(Your 
Brain on Google; Patterns of Cerebral Activation during Internet Searching), 4&113X, T 
24 名 研究 对 象 ,其 中 12 人 经 常 使 用 搜索 引 敬 ,另外 12 人 很 少 使 用 。 在 每 个 人 上 网 时 ,给 他 
们 脑 部 做 核磁 共振 。 研 究 发 现 ,使 用 搜索 引擎 的 时 候 , 人 们 大 脑 中 处 理 问 题 决 策 的 区 域 活跃 
度 会 提升 ,经 常 使 用 搜索 引擎 的 12 人 在 实验 中 的 脑 部 活动 是 很 少 使 用 搜索 引擎 的 人 的 2 
倍 。 搜 索引 擎 不 仅 可 以 帮助 人 们 找到 需要 的 信息 ,还 可 以 让 人 们 的 大 脑 保持 年 轻 。 

在 当今 的 “互联 网 十 ”环境 中 ,加 窗 是 一 种 第 用 的 保护 用 户 数据 私 窗 性 的 方法 ,然而 数据 
加 密使 得 数据 失去 了 原 有 的 结构 特性 ,导致 在 海量 的 密 文 文件 中 搜索 特定 的 文件 变 得 极为 
困难 。 因 此 ,对 密 文 数据 的 高 效 搜索 成 为 一 个 迫切 需要 解决 的 问题 。 

本 章 将 首先 对 密 文 搜索 技术 进行 概述 ,然后 介绍 其 发 展现 状 , 并 详细 介绍 云 存储 环境 下 
的 窗 文 搜索 和 关于 该 领域 的 最 新 研究 成 果 , 最 后 提出 未 来 的 发 展 方向 和 面临 的 挑战 。 


6.1 密 文 搜索 技术 概述 


本 市 首先 介绍 密 文 搜索 技术 分 类 ,然后 介绍 其 应 用 模型 。 


6.1.1 崇文 搜索 技术 分 类 


根据 搜索 词 与 加 密 数 据 的 耦合 方式 , 密 文 搜索 (Searchable Encryption,SE) 分 为 可 搜索 
加 密 算法 与 可 搜索 加 密 方案 。 可 搜索 加 密 算 法 是 指 设计 的 密码 算法 本 身 文 持 搜索 ; 可 搜索 
加 蜜 方案 是 指 设计 一 种 方案 ,比如 使 用 倒 排 索引 ,然后 使 用 已 有 的 密码 算法 ( 公 钥 密码 或 对 
称 密码 算法 ) 对 数据 进行 加 密 ,利用 索引 实现 加 密 数 据 的 搜索 ,关键 词 索引 技术 和 数据 加 密 
在 实现 上 具有 独立 性 。 

目前 主要 有 两 种 典型 的 可 搜索 加 密 方案 : 一 种 是 耳 接 对 密 文 进行 线性 搜索 , 即 对 密 文 
中 单词 逐个 进行 比 对 ,确认 关键 词 是 否 存在 以 及 出 现 的 次 数 ; 另 一 种 是 基于 安全 索引 , 即 先 
对 文档 建立 关键 词 索引 ,然后 将 文档 和 索引 加 密 后 上 传 至 云端 ,搜索 时 从 索引 中 查询 关键 词 
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是 否 存 在 于 茶 个 文档 中 。 下 接 对 密 文 进行 线性 搜索 的 方案 缺点 在 于 搜索 效率 不 高 , 且 无 法 
应 对 海量 数据 的 搜索 场景 。 基 于 索引 的 密 文 搜索 方案 是 目前 的 研究 主流 ,原因 是 其 查询 效 
率 更 高 ,安全 性 能 更 好 ,适用 于 大 规模 的 云 存 储 密 文 搜索 系统 。 基 于 索引 的 密 文 搜索 可 进 一 
步 分 为 两 类 : 第 一 类 是 针对 结构 化 的 数据 ,以 数据 库 为 代表 ; 第 二 类 是 针对 非 结 构 化 的 数 
据 ,以 文件 系统 和 Web 网 页 内 容 为 代表 。 

基于 索引 的 密 文 搜索 方案 根据 基于 的 密码 技术 可 以 分 为 基于 对 称 密码 (CSymmetric 
Cryptography based) AY FY $8 Z& Jr A 7; 2e . 3B A BK A n] 18 OMT PR JI BR JJ R C Searchable 
Symmetric Encryption, SSE) Mł FAH% 14 (Public Key Cryptography based) 的 可 搜索 加 
密 方案 。 用 户 的 主要 数据 存放 在 家 用 或 办 公 人 台式 机 上 ,而 平时 主要 使 用 手机 等 手持 设备 访 
问 网 络 , 这 是 目前 很 多 用 户 的 实际 场景 。 用 户 的 数据 很 丰富 ,包括 文档 .照片 .视频 等 各 种 数 
据 。 有 些 文件 如 用 户 的 一 些 私人 照片 并 不 希望 被 别人 看 见 , 因 此 存放 到 云端 前 ,需要 对 数据 
进行 加 密 处 理 。 显 然 , 大 量 的 用 户 数 据 如 果 使 用 公 角 密码 算法 加 密 其 开销 太 大 ,因此 只 适合 
使 用 对 称 密码 算法 加 密 。 

关于 密 文 搜索 技术 的 分 类 ”如 图 6-1 所 示 , 将 密 文 搜索 的 研究 内 容 分 为 可 搜索 加 密 方 
案 和 可 搜索 加 密 模 型 。 在 可 搜索 加 密 方案 中 ,根据 加 密 算法 可 分 为 基于 公 和 钥 加 密 算法 和 基 
于 对 称 加 密 算法 ; 将 基于 关键 词 的 密 文 搜索 分 为 单 关键 词 (进一步 可 分 为 模糊 查询 、 排 序 查 
询 )、 多 关键 词 、 连 接 关 键 词 和 灵活 查询 (进一步 可 分 为 范围 查询 和 子 集 查 询 )。 在 可 搜索 加 
密 模型 中 ,根据 数据 拥有 者 和 用 户 的 数量 ,分 为 单数 据 拥有 者 单 用 户 、 多 数据 拥有 者 单 用 户 、 
单数 据 拥有 者 多 用 户 和 多 数据 拥有 者 多 用 户 , 也 是 下 一 节 将 介绍 的 应 用 模型 。 


模糊 查询 
单 关键 词 
基于 关键 词 多 关键 词 iii 
的 密 文 搜索 m 
连接 关键 词 
范围 查询 
xi 
可 搜索 了 集 查 询 
密 方案 
双 线 性 
LAM 映射 
加 密 算 法 RSA 
密 文 搜索 | 对 称 加 密 
irn 单数 据 拥有 
者 单 用 户 
可 搜索 如 “上 一 une 数据 拥有 者 
密 模 型 单数 据 拥 有 _ | 2f Token 
者 多 用 户 用 户 生 成 
多 数据 拥有 Token 
首 多 用 户 权威 中 心 发 
布 Token 


图 6-1 密 文 搜索 技术 的 分 类 
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基于 对 称 密码 的 密 文 搜索 方案 一 般 使 用 喻 希 (Hash) 了 函数、 伪 随 机 函数 (Pseudo-Random 
Function. PRF) 、 伪 随机 转换 (Pseudo-Random Permutation,PRP) 和 对 称 密 码 算 法 等 构造 ; 
基于 非 对 称 密码 的 密 文 搜索 方案 一 般 使 用 双 线 性 映射 (Bilinear Mapping)、 双 线性 对 
(Bilinear Pairing)、 指 数 运算 (Exponent Operation) 以 及 同 态 密码 算法 等 ,并 将 安全 性 建立 
在 困难 问题 的 难 解 性 之 上 ,其 计算 开销 远大 于 SSE” 。 

因为 加 密云 存储 系统 中 数据 量 很 大 ,一般 使 用 对 称 密码 算法 加 密 数 据 ,所 以 云 存储 环境 
下 一 般 是 采用 基于 对 称 密码 的 密 文 搜索 方案 。 


6.1.2 敬文 搜索 应 用 模型 


无 论 是 基于 对 称 密码 的 可 搜索 对 称 加 密 (Searchable Symmetric Encryption. SSE) , 还 
Fe SEF ZS $A 45 (Public Key Cryptography based) 的 可 搜索 加 密 ,通常 都 包括 3 个 角色 : zx 
ff fit IK Ae (Cloud Storage Server) 数据 拥有 者 (Data Owner) 和 数据 用 户 (Data User), 2 
据 拥有 者 希望 将 自己 的 数据 安全 存放 在 云 存储 服务 器 上 ,方便 数据 管理 与 访问 。 

密 文 搜索 应 用 模型 根据 数据 拥有 者 是 否 共享 其 存储 在 云 服 务 器 上 的 数据 ,分 为 非 共 
享 型 和 共享 型 两 种 密 文 搜索 应 用 模型 。 在 非 共 享 模型 中 ,数据 用 户 就 是 数据 拥有 者 ,也 就 是 
单数 据 拥 有 者 单 用 户 ; 而 在 共享 模型 中 ,数据 用 户 是 指 可 以 通过 网 络 访 问 数据 拥有 者 数据 
的 其 他 用 户 。 共 带 模 型 又 进一步 分 为 单数 据 拥 有 者 多 用 户 、 多 数据 拥有 者 单 用 户 和 多 数据 
拥有 者 多 用 户 。 

非 共 享 模型 如 图 6-2 Pron ,数据 拥有 者 同时 也 是 数据 用 户 , 他 会 为 自己 生成 搜索 令 牌 ， 
从 而 在 云 存储 服务 硕 上 搜索 目 己 的 文件 。 早 期 的 密 文 搜索 方案 基本 都 是 这 种 类 型 的 。 非 共 
享 模型 的 密 文 搜索 方案 包括 文献 L4-15]。 


CO — Lumentug- 


加 密 数据 
查询 请 求 一 一 加 密 数 据 集 
数据 拥有 者 一 搜索 结 采 


6-2. jp3to BUM 


共享 模型 的 系统 结构 如 图 6-3 所 示 ,数据 用 户 是 指 通过 数据 拥有 者 授权 ,可 以 通过 网 络 
访问 数据 拥有 者 数据 的 其 他 用 户 。 根 据 共 享 时 数据 拥有 者 与 用 户 的 数量 ,可 以 分 为 一 对 多 
模式 、 多 对 一 模式 和 多 对 多 模式 。 此 处 的 云 存储 服务 需 考 虑 的 是 单 服务 硕 , 未 考虑 多 云 存 储 
服务 器 的 情形 。 

多 对 一 应 用 模型 如 图 6-4 所 示 。 基 于 公 钥 密码 的 可 搜索 加 密 方案 能 有 效 地 文 持 这 种 类 
型 的 共享 , 公 钥 用 于 明文 信息 的 加 密 和 目标 密 文 的 检索 , 私 钥 用 于 解密 密 文 信息 和 生成 关键 
词 陷 门 。 虽 然 基于 公 钥 密码 的 可 搜索 加 蜜 方案 通 稼 较为 复杂 ,加 解密 速度 较 慢 ,但 是 其 公私 
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6-3 ”共享 模型 


钥 相 互 分 离 的 特点 非常 适用 于 多 用 户 体制 下 可 搜索 加 密 问 题 。 比 如 ,数据 拥有 者 利用 授权 
用 户 的 公 钥 来 加 密 文 件 和 相关 关键 词 ,检索 时 授权 用 户 使 用 私 钥 生成 待 检索 关键 词 陷 门 , 云 
服务 需 根 据 搜索 陷 门 执行 搜索 算法 后 返回 目标 密 文 。 该 方法 避免 了 在 数据 拥有 者 与 授权 用 
户 之 间 建 立 安全 通道 


图 6-4 多 对 一 应 用 模型 


第 一 个 实用 的 多 对 一 可 搜索 加 密 方 案 是 Boneh 等 人 在 2004 年 提出 的 PEKSCPublic- 
key Encryption with Keyword Search) 9 。 在 该 方案 中 ,多 个 数据 拥有 者 利用 授权 用 户 的 
公 钥 来 加 密 数 据 和 用 于 查询 的 关键 词 , 然 后 上 传 ,授权 用 户 可 以 利用 自己 的 私 钥 生 成 关键 词 
的 搜索 陷 门 并 查询 出 相关 数据 。 

Abdalla 4& A"? Æ 2005 年 描述 了 从 基于 身份 的 WM% CIdentity Based Encryption, IBE) 
到 PEKS 的 一 般 变 换算 法 ,能 够 将 某 种 安全 性 的 IBE 方案 直接 变换 成 与 其 安全 性 相当 的 
PEKS 方案 。 

多 对 一 应 用 模型 的 应 用 场景 相对 较 少 ,因为 公 钥 密码 的 计算 开销 太 大 。 这 类 方案 一 般 
适用 于 较 少 数据 量 的 情形 ,比如 用 于 电子 邮件 过 滤 应 用 中 。 

一 对 多 与 多 对 多 应 用 模型 如 图 6-5 所 示 。 通 党 ,基于 公 钥 密码 的 方案 能 有 效 地 文 持 这 
种 类 型 的 共享 。 在 使 用 基于 对 称 密码 的 可 搜索 加 密 方 案 中 ,可 通过 结合 基于 属性 的 加 密 
(Attribute Based Encryption. ABE) ,J 48 Jl 4 (Broadcast Encryption. BE) 或 代理 重 加 密 
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(Proxy Re-encryption) 等 公 钥 密码 算法 来 实现 共享 。 作 者 认为 ,一 对 多 应 用 模型 与 多 对 多 
应 用 模型 可 以 不 加 区 分 ,一 对 多 应 用 模型 可 以 视 为 多 对 多 应 用 模型 的 一 种 特例 一 一 在 一 对 
多 应 用 模型 中 , 当 数 据 拥有 者 同时 也 是 数据 用 户 时 , 它 也 就 是 一 个 多 对 多 应 用 模型 。 


fri 


Cou 


查询 [ 
Ij] RY 


(b) 多 对 多 应 用 模型 
6-5 一 对 多 与 多 对 多 应 用 模型 


Er 


在 一 对 多 与 多 对 多 应 用 模型 中 ,有 两 个 问题 需要 考虑 。 

d) 回 授权 用 户 分 发 共享 密 钥 。 

(2) 用 户 撤销 。 

Curtmola 等 人 "第 一 次 提出 了 多 用 户 可 搜索 对 称 加 密 的 概念 ,并 基于 广播 加 密实 
现 了 一 个 高 效 的 一 对 多 或 多 对 多 可 搜索 加 密 方案 。 该 方案 通过 癌 授 权 用 户 共 享 文件 密 钥 来 
实现 , 当 要 撤销 用 户 时 ,需要 重新 生成 新 的 共享 文件 密 钥 。 

根据 是 否 有 可 信 第 三 方 来 协助 数据 共享 ,又 可 以 将 该 应 用 模型 分 为 依赖 可 信 第 三 方 
(Trusted Third Party,TTP) 的 和 不 依赖 可 信 第 三 方 的 “多 对 多 应 用 模型 。 

Sun 等 人 "2 基于 密 文 策略 属性 基 加 密 (Ciphertext Policy Attribute Based Encryption: 
CP-ABE) 实 现 了 一 个 可 以 让 数据 拥有 者 进行 细 粒 度 授权 的 多 用 户 可 搜索 加 蜜 方案 。 该 方 
案 利 用 代理 重 加 密 和 懒惰 重 加 密 技 术 把 用 户 的 授权 工作 外 包 给 云 服 务 硕 ,可 信和 第 三 方 只 负 
责 密 钥 ( 包 括 公 钥 、 系统 主 密 钥 和 重 加 密 密 钥 ) 的 生成 和 分 发 。 文 献 L23] 和 [25j] 也 是 采用 属 
性 基 加 密实 现 多 用 户 可 搜索 加 密 方 案 。 

目前 大 部 分 多 对 多 应 用 模型 的 可 搜索 加 密 方案 依赖 可 信 第 三 方 ,可 信 第 三 方 可 以 实现 
高 效 的 密 钥 分 发 和 权限 的 撤销 ,但 在 云 存 储 环 境 下 ,可 信 第 三 方 是 很 难 实现 的 。 目 前 也 有 一 
些 不 依赖 可 信 第 三 方 的 可 搜索 加 密 方案 ,如 文献 L26] 和 [27j] 的 方案 将 数据 拥有 者 授权 信息 
附加 在 文件 后 面 ,而 文献 [28j 改 进 了 文献 [27] 的 方案 ,提出 一 种 基于 关键 词 授 权 二 又 树 


(Keyword Authorization Binary Tree,KABtree) 的 方案 ,使 得 数据 拥有 者 可 以 指定 授权 用 
户 在 关键 词 的 子 集 中 进行 搜索 ,从 而 实现 细 粒 度 的 访问 控制 。 

在 多 对 多 应 用 模型 中 ,任何 用 户 都 可 以 上 传 数据 ,并 与 其 他 用 户 共享 数据 。 这 是 密 文 搜 
索 中 最 复杂 的 应 用 模型 ,也 是 云 存 储 环境 下 的 实际 应 用 场景 ,也 将 是 今后 的 主要 人 研究 方向。 

以 上 还 只 是 讨论 了 单 服 务 天 模型 ,而 没有 考虑 多 服务 需 模 型 ,比如 路 服务 提供 商 的 云 存 
储 模型 ,或 者 是 混合 云 模型 的 情况 。 当 然 , 也 有 这 方面 的 研究 工作 。 

Xhafa 45 AU fe 2014 年 提出 一 种 混合 云 环境 下 的 基于 匿名 ABE 的 支持 模糊 关键 词 的 
可 搜索 加 蜜 方案, 用 户 利用 私有 云 作 为 一 个 可 信人 代理 来 部 署 个 人 健康 档案 (Personal Health 
Record,PHR) 数 据 到 公有 云 上 上。 其 中 基于 匿名 ABE 技术 实现 细 粒 度 的 访问 控制 ,使 用 基 
于 通配符 的 方法 进行 模糊 关键 词 检索 ,并 使 用 基于 符号 的 遍历 搜索 (Symbol-Based Trie- 
Traverse Search) 技 术 提 高 搜索 效率 。 


6.2 密 文 搜索 发 展现 状 


上 一 节 介 绍 了 密 文 搜索 技术 的 分 类 和 应 用 模型 ,本 节 将 以 密 文 搜索 技术 的 功能 属性 和 
安全 属性 为 线索 ,介绍 密 文 搜索 技术 的 发 展现 状 。 


6.2.1 蜜 文 搜索 功能 属性 与 安全 属性 


密 文 搜索 技术 从 最 早 的 仅 文 持 单 关键 词 搜索 发 展 到 文 持 多 关键 词 搜索 ,然后 到 文 持 多 
HP , 文 持 动态 更 新 , 文 持 相似 搜索 、 模 糊 搜索 ,再 到 对 搜索 结果 进行 排序 等 ,功能 日 益 丰 富 。 
而 从 安全 性 角度 来 看 , 密 文 搜索 技术 还 可 以 实现 公开 验证 搜索 结果 或 数据 的 完整 性 ,实现 用 
户 与 服务 带 之 间 的 公平 性 ,保护 搜索 过 程 中 的 数据 隐私 ,以 及 保护 搜索 的 访问 模式 和 搜索 模 
式 等 。 总 结 密 文 搜索 技术 的 属性 ,可 分 为 功能 属性 和 安全 属性 ,如 图 6-6 所 示 。 


单 /多 关键 词 
多 用 户 授权 
功能 属性 一 | 一 支持 动态 更 新 
模糊 /相似 查询 
人 
范围 / 子 集 查询 
= 可 公开 验证 
公平 性 
安全 属性 一 | 一 保护 数据 隐私 
保护 访问 模式 
保护 搜索 模式 


图 6-6 密 文 搜索 属性 
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通常 ,在 可 搜索 加 密 方案 中 会 泄露 以 下 信息 。 

(1) 索引 信息 (Index Information): 索引 是 对 文件 提取 关键 词 后 建立 的 。 目 前 通常 基 
于 倒 排 索 引 ,包含 了 关键 词 与 文件 的 对 应 关系 。 一 旦 索引 上 传 到 云 服 务 需 , 便 会 泄露 每 篇 文 
档 中 关键 词 的 个 数 .文档 数量 .文档 密 文 长 度 .文档 名 以 及 文档 之 间 的 相似 性 。 

(2) 搜索 模式 (Search pattem): 指 的 是 可 以 判断 两 次 搜索 是 否 是 对 相同 关键 词 的 搜 
索 。 对 于 基于 确定 性 加 密 的 方案 ,针对 相同 关键 词 的 搜索 陷 门 是 相同 的 ,因此 就 泄露 了 搜索 
模式 。 

(3) 访问 模式 (Access pattem): 用 户 每 次 搜索 , 云 服 务 需 都 会 知道 每 个 查询 对 应 的 查 
询 结果 。 云 服务 器 可 以 从 这 些 数 据 中 推测 出 一 些 信息 。 比 如 , 某 次 搜索 返回 了 文件 A ,而 另 
一 次 搜索 返回 了 文档 A 和 B, 可 以 推测 出 第 一 次 搜索 的 条 件 更 加 严格 。 

通常 ,在 设计 可 搜索 加 密 方 案 时 ,除了 以 上 3 类 信息 的 泄露 ,不 允许 泄露 其 他 任何 信息 。 
当然 ,一 个 好 的 可 搜索 加 密 方案 ,其 泄露 的 信息 越 少 , 则 安全 性 越 强 。 

Goldreich 和 Ostrovsky”) 提出 的 不 经 意 的 RAM(COblivious RAM,ORAM) 通 过 访问 
多 份 数据 ,来 隐藏 真实 的 访问 目标 。 目 前 大 家 认为 ORAM 是 保护 云 存 储 访问 隐私 性 的 最 
有 潜力 的 方法 ,将 ORAM 技术 应 用 于 可 搜索 加 密 方案 中 ,可 以 隐藏 搜索 模式 和 访问 模式 ， 
但 是 ORAM 往往 需要 对 数 多 项 式 的 计算 和 通信 开销 ,以 及 对 数 级 多 轮 交 互 , 通 常 所 用 访问 
时 间 比 直接 访问 时 间 多 出 几 十 甚至 上 百倍 。 

全 同 态 加 密 中 为 直接 对 云 存 储 服 务 器 中 的 加 密 数 据 进 行 运算 和 操作 提供 了 理论 保障 。 
但 目前 全 同 态 加 密 方案 的 计算 开销 非常 大 ,难以 在 现 有 计算 技术 条 件 下 有 效 实现 ,因此 尚未 
进入 实用 化 阶段 。 此 外 ,在 数据 库 应 用 下 的 保密 信息 检索 (Private Information Retrieval. 
PIR)"“ 与 可 搜索 加 密 的 研究 内 容 也 有 一 定 关 系 ,但 PIR 关注 的 是 信息 查询 过 程 中 的 数据 
隐私 性 ,而 并 不 关注 数据 本 身 是否 加 密 。 

除了 以 上 丰富 的 功能 属性 与 安全 属性 , 密 文 搜索 方案 的 正确 性 、 灵 活性 、 丰 富 的 表达 式 
以 及 算法 的 效率 等 都 是 密 文 搜索 技术 的 研究 重点 。 


6.2.2 WC BD BU SRI 


因为 云 存 储 环 境 下 ,通常 采用 基于 对 称 密 码 算 法 的 可 搜索 加 密 方案 ,所 以 本 书 也 主要 介 
绍 可 搜索 对 称 加 密 方 案 (Searchable Symmetric Encryption, SSE). 

2000 年 ,Song 等 “首次 提出 一 个 非 交 互 式 的 基于 单 关键 词 的 SSE 方案 。 该 方案 通过 
对 密 文 文件 进行 扫描 并 与 密 文 单词 进行 比较 ,来 确定 关键 词 是 否 存在 。 在 海量 数据 环境 下 ， 
其 效率 不 佳 。 为 了 改进 效率 ,Goh™ 提出 使 用 安全 索引 的 方法 实现 对 海量 密 文 数据 的 快速 
检索 ,并 基于 Bloom Filter 构建 了 一 种 适应 性 选择 关键 字 攻 击 安全 的 安全 索引 Z-IDX。 在 
该 索引 上 进行 搜索 时 ,处 理 每 个 文档 的 时 间 为 O(1) ,并 且 能 够 处 理 任意 长 度 单 词 。 但 是 
Bloom Filters 的 引入 使 得 该 方法 的 检索 结果 具有 一 定 的 错误 率 。 

2006 年 ,Curtmola 等 ”提出 第 一 个 子 线性 搜索 时 间 的 方案 SSE-1 和 SSE-2, 整 个 文档 
集 关 联 一 个 加 密 的 倒序 索引 ,每 个 人 口 由 关键 词 的 门 陷 和 相关 文档 标识 符 的 加 密集 组 成 。 
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方案 的 搜索 时 间 是 OC) or 是 包含 关键 词 的 文件 数量 。 他 们 利用 广播 加 密实 现 多 用 户 环境 
下 的 搜索 授权 ,并 在 Song 咏 的 基础 上 给 出 更 严格 的 安全 性 定义 。Chase 等 潮 提 出 一 个 基于 
Suffix Trees 的 支持 子 串 搜索 的 SSE 方案 。Dai SO! 提出 两 个 基于 Physical Unclonable 
Functions (PUFs) 的 可 抵抗 内 存 泄露 的 SSE 方案 。 

为 了 实现 密 文 数据 更 新 ,Liesdonk “°°! 第 一 次 明确 地 提出 动态 性 的 SSE 方案 ,但 他 们 
的 方案 只 支持 有 限 次 的 更 新 。Kamara 5&9 扩展 Curtmola 等 "的 倒 排 索引 的 方法 ,提出 
动态 SSE 的 形式 化 的 安全 定义 ,并 构造 了 第 一 个 动态 的 .CKA2 安全 的 SSE 方案 。 接 下 来 ， 
在 文献 [37 中 ,他 们 基于 关键 词 红 黑 树 (Keyword Red-Black ,KRB) 构 造 了 可 并 行 且 文 持 更 
新 的 SSE 方案 。Hahn 4° 提出 一 个 子 线性 检索 时 间 的 方案 ,其 更 新 只 泄露 数据 访问 模 
式 。 该 方案 可 存放 搜索 历史 信息 ,用 于 优化 更 新 时 间 ,但 索引 不 具 动 态 性 ,更 新 时 会 泄露 关 
于 关键 词 的 信息 Stefanov 4° 使 用 文档 关键 词 对 的 对 数 级 层次 结构 实现 了 数据 更 新 。 
Naveed 等 “引入 一 个 新 的 元 语 一 一 盲 存储 ,允许 用 户 将 一 组 文件 存储 在 远程 服务 器 上 ,但 
服务 器 并 不 知道 存储 了 多 少 文件 ,也 不 知道 单个 文件 的 长 度 。 当 文件 被 检索 时 ,服务 器 只 是 
知道 文件 的 存在 ,但 不 知道 文件 名 及 内 容 。Yang 等 “实现 了 一 个 常量 更 新 时 间 的 方案 。 

为 了 对 搜索 结果 按 相关 度 排 序 ,Wang 等 “考虑 关键 词 词 频 信息 ,提出 基于 对 称 密码 保 
序 加 密 技 术 的 单 关 键 词 分 级 密 文 排序 搜索 方法 (Ranked SSE,RSSE) 。 为 了 实现 模糊 检索 ， 
Li 等 ”提出 基于 编辑 距离 的 加 密 字 符 串 模糊 搜索 方案 ,该 方案 为 每 个 字符 串 附加 一 个 基于 
通配符 的 模糊 字符 串 组 ,用 多 个 精确 匹配 来 实现 模糊 搜索 。 在 文献 [43] 中 ,他 们 使 用 属性 加 
密实 现 多 用 户 模 糊 关 键 词 搜索 ,并 利用 基于 符号 的 遍历 树 搜 索 算法 提高 搜索 效率 。Xhafa 
等 ”使 用 匿名 的 基于 属性 加 密 技术 加 密 对 称 密 钥 ,将 访问 控制 信息 隐藏 在 密 文 中 。Wang 
等 "多 利用 压缩 技术 建立 存储 高 效 的 相似 关键 词 集 合 , 使 用 编辑 距离 作为 相似 性 度量 。 黄 涩 
维 等 "所 设 计 的 CESVMC 方案 ,运用 向 量 和 和 矩阵 的 各 种 运算 ,支持 对 加 密 字 符 串 的 模糊 

以 上 方案 只 支持 单 关 键 词 搜索 ,为 了 实现 多 关键 词 密 文 搜索 ,Moatazt 等 “提出 一 种 基 
于 关键 词 域 上 的 格拉 姆 - 施 密 特 正 交 化 过 程 的 布尔 搜索 方案 。 王 尚 平等 采用 授权 用 户 和 
存储 服务 器 先后 对 关键 词 加 密 的 方式 设计 了 一 个 基于 连接 关键 词 的 方案 ,该 方案 使 授权 用 
户 能 利用 连接 关键 词 的 陷 门 搜索 加 密 文档 。Cash 等 中 提出 OXT COblivious Cross-Tags) 协 
议 ,可 以 在 SSE 中 运行 常用 的 布尔 查询 。KurosawaL4 提出 基于 扩展 的 满足 标签 重用 隐私 
的 乱码 电路 (Garbled Circuit) 实 现 多 关键 字 查询 。Shen 46" 提出 将 搜索 请 求 转换 为 多 项 
式 形式 ,采用 拉 格 朗 日 多 项 式 表示 用 户 的 偏好 ,并 将 偏好 多 项 式 变 换 成 一 个 搜索 向 量 , 然 后 
使 用 文件 矢量 和 搜索 向 量 的 内 积 表 明文 件 和 搜索 请 求 之 间 的 相关 性 。 为 了 克服 集中 式 云 模 
型 中 存在 的 单一 点 故障 问题 ,Zhang 等 “提出 一 种 适用 于 地 理 位 置 分 布 的 云 模 型 中 的 多 关 
键 字 搜索 方案 。 

为 了 实现 多 关键 词 查询 结果 的 排序 ,Cao 等 5 扩展 了 Wang 等 1 的 工作 以 支持 多 关键 
词 查询 ,并 基于 安全 kNN(k-Nearest Neighbor) 查 询 技 术 中 索引 向 量 与 查询 向 量 间 “内 积 相 
似 度 ” 来 实现 排序 。Sun 等 “提出 一 种 支持 相似 度 排序 的 多 关键 词 文 本 检索 方案 ,基于 词 
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频 和 向 量 空间 模型 构建 索引 ,并 利用 余弦 相似 性 度量 来 实现 更 高 的 查询 精度 。Li 等 利用 
分 段 和 矩阵 解决 关键 词 字 典 的 膨胀 问题 ,可 以 在 增加 关键 词 或 文件 时 降低 字典 重 构 以 及 索引 
解密 时 间 。Yu 等 "外 采用 向 量 空间 模型 ,使 用 文件 向 量 记录 关键 词 和 文件 之 间 的 相关 性 得 
分 ,搜索 向 量 记录 用 户 的 偏好 ,两 向 量 的 内 积 表 示 它 们 的 相似 性 。Zhang 等 ”提出 同时 支 
持 多 个 数据 拥有 者 的 可 排序 的 多 关键 字 搜 索 方案 ,该 方案 基于 加 法 阶 和 隐私 保护 的 函数 族 
编码 ,使 服务 器 返回 最 相关 的 搜索 结果 而 不 泄露 敏感 信息 。Xnu 等 “采用 保 序 加 密 计 算 相 
关 人 性 得 分 ,Li 等 “基于 盲 存储 隐藏 数据 访问 模式 ,Fu 等 “提出 支持 同 义 查 询 的 排序 多 关 
键 词 搜索 方案 。Wang 等 5 利用 Bloom Filter 中 的 LSH (Locality-Sensitive Hashing) 函数 
构建 索引 提供 多 关键 词 的 模糊 检索 ,利用 欧 氏 距离 表示 相似 度 , 利 用 内 积 计算 进 行 排序 。 
Hu 等 基于 倒 排 索引 和 Bloom Filter ,提出 一 种 支持 通配符 搜索 、 模 糊 搜索 和 析 取 搜索 的 
支持 文件 更 新 的 方案 。Gajek“ 提出 一 种 基于 约束 函数 加 密 的 动态 方案 。 

以 上 方案 都 是 基于 诚实 但 好 奇 (Honest-But-Curious, HBC) 的 服务 大 安全 模型 下 的 
SSE 方案 ,但 在 现实 环境 下 , 云 服 务 需 都 不 是 完全 可 信 的 ,可 能 是 半 诚 实 的 (Semi-Honest) 
甚至 是 恶意 的 (Malicious) 。 在 半 可 信 但 好 奇 (Semi-Honest But Curious, SHBC) 与 不 可 信 
且 好 奇 (Dishonest and Curious,DHAC) 的 服务 需 安 全 模型 下 ,要 求 对 服务 需 返 回 的 搜索 结 
果 以 及 密 文 数据 进行 完整 性 验证 ,甚至 当 出 现 错误 时 ,服务 需 应 当 定 位 错误 并 进行 数据 
恢复 。 

2012 年 Chai 等 "提出 第 一 个 可 验证 的 SSE 方案 。 该 方案 扩展 了 Curtmola 等 "的 
方案 ,允许 对 单 关键 词 的 搜索 结果 进行 验证 。Kurosawa 等 "研究 了 可 验证 的 通用 可 组 合 
(Universally Composable) 安 全 的 SSE 方案 ,提出 可 验证 SSE 安全 的 形式 化 定义 。 在 文献 
[62 中 ,他 们 提出 一 种 基于 RSA accumulator 的 可 验证 的 更 新 方案 ,并 证 明 为 UC 安全 
(Universally Composable Security) ,但 该 方案 需要 为 每 个 关键 词 生成 一 个 MAC(Message 
Authentication Code) ,所 以 修改 文件 的 效率 比较 低 。Sun 等 基于 先前 的 研究 工作 ~ , 通 
过 对 索引 树 的 根 进行 RSA 签名 实现 搜索 结果 的 验证 。 接 着 ,他 们 又 提出 一 个 UC 安全 的 可 
验证 的 动态 合 取 关键 词 查 询 方 案 “ 。 该 方案 采用 倒 排 索引 结构 ,并 基于 双 线 性 映射 构造 
Accumulation Tree 来 实现 验证 。Cheng A557 提出 基于 安全 的 不 可 区 分 混 消 (Cindistinguishable 
Obfuscation ,iO) 电 路 的 可 验证 SSE 方案 , 文 持 连接 和 布尔 查询 ,并 且 可 实现 公开 验证 ,但 
iO 电路 会 带 来 潜在 的 开销 。Zheng 5579 提出 基于 属性 加 密 与 Bloom filter 的 可 验证 SSE 
方案 。Wang 等 提出 基于 Bloom Filter" 和 Symbol-treet®™ 实现 基于 通配符 的 模糊 关键 词 
搜索 及 对 搜索 结果 的 验证 。Fu 等 提出 支持 语义 搜索 的 可 验证 方案 。Bost 等 ”改进 文 
献 [ 39 ,提出 基于 Merkle Hash 树 和 Cryptographic Accumulators 的 可 验证 SSE 方案 。 

此 外 , 宋 伟 等 提出 了 一 种 基于 开源 Lucene 全 文 检索 引擎 架构 的 密 文 全 文 检索 系 
统一 一 Mimir, 基 于 B 十 树 构建 了 一 种 安全 密 文 索引 结构 。 与 传统 的 全 文 检索 系统 相 比 ， 
Mimir 密 文 索引 中 没有 存储 索引 词 的 位 置信 息 和 词 频 信息 ,可 以 有 效 地 抵御 已 知 明文 攻击 、 
选择 明文 攻击 和 词 频 统计 攻击 Ishal 等 提出 一 种 基于 双 服 务 器 模型 的 应 用 于 数据 库 
环境 的 SSE 方案。 项 菲 等 ”对 经 典 的 密 文 搜索 技术 进行 了 分 类 总 结 和 说 明 。 文 献 L2] 和 
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L3j 围 绕 可 搜索 加 密 技术 基本 定义 、 典 型 构造 和 扩展 研究 ,对 可 搜索 加 密 相 关 工 作 进行 了 

综 上 所 述 , 密 文 搜索 技术 循 着 实际 需求 和 功能 丰富 的 方向 一 直 发 展 ,到 目前 为 止 ,已 经 
取得 了 非常 丰硕 的 研究 成 果 。 但 以 上 所 述 方案 并 不 全 部 适用 于 云 存储 环境 ,下 文 将 详细 讨 
论 云 存储 环境 下 密 文 搜索 的 需求 ,并 介绍 最 新 云 存储 密 文 搜索 的 研究 成 果 。 


6.3 云 存 储 环 境 下 密 文 搜 索 


本 节 介 绍 云 存储 环境 下 密 文 搜索 的 特殊 需求 和 最 新 的 云 存 储 密 文 搜索 方案 。 


6.3.1 云 存储 环境 下 的 特殊 需求 


密 文 数据 检索 成 为 信息 安全 和 密码 学 领域 的 一 个 重要 问题 ,主要 原因 有 以 下 几 点 。 

C1) 检索 是 我 们 访问 数据 的 重要 方式 。 

(2) 越 来 越 多 的 用 户 将 数据 存放 于 第 三 方 存储 服务 器 上 。 

(3) 对 第 三 方 存储 服务 器 越 来 越 缺 乏 信 任 。 

云 存储 服务 要 真正 实现 让 用 户 “ 存 得 放心 “ 找 得 快速 ”用 得 方便 ”, 就 必须 解决 密 文 环 
境 下 的 数据 检索 。 

针对 不 可 信 云 存储 环境 中 海量 的 数据 、 大 量 的 租户 及 数据 的 动态 性 等 特点 和 安全 需求 ， 
云 存储 环境 下 密 文 搜索 有 一 些 特殊 的 需求 。 

1. 不 可 信 云 存储 环境 的 安全 需求 

上 述 大 部 分 SSE 方案 基于 诚实 但 好 奇 (Honest-But-Curious, HBC) 的 服务 器 安全 模型 ， 
在 此 模型 下 ,用 户 认 为 服务 器 诚实 地 执行 搜索 协议 ,只 是 试图 推断 关于 数据 或 搜索 的 相关 信 
息 。 然 而 ,现实 环境 下 ,受到 人 硬件 软件 操作 系统 、 网 络 或 人 为 操作 等 因素 的 影响 , 云 存 储 服 
务 器 都 是 不 完全 可 信和 的 ,可 能 是 半 诚 实 的 (Semi-Honest) ,其 至 是 恶意 的 (Malicious)。 目 前 
关于 半 可 信 但 好 奇 (Semi-Honest But Curious. SHBC) 与 不 可 信和 且 好 奇 (Dishonest and 
Curious,DHAC) 的 服务 器 安全 模型 下 的 SSE 方案 比较 少 。 在 SHBC 和 DHAC 安全 模型 
下 ,服务 需 可 能 只 执行 部 分 搜索 操作 ,或 者 为 了 节省 资源 ,只 返回 部 分 搜索 结果 。 因 此 ,为 了 
保证 搜索 结果 的 完整 性 和 正确 性 ,要 求 服 务 器 证 明 诚实 地 执行 了 搜索 操作 是 至 关 重 要 的 ,这 
也 是 可 验证 SSE 方案 的 功能 目标 。 可 验证 SSE 方案 可 以 对 服务 器 返回 的 搜索 结果 以 及 密 
文 数据 进行 完整 性 验证 ,要 求 服务 器 证 明 诚 实地 执行 了 搜索 操作 ,甚至 当 出 现 错误 时 ,服务 
器 应 当 定 位 错误 并 进行 数据 恢复 。 更 进一步 地 , 当 云 服务 器 不 诚实 时 ,能 有 一 定 的 惩处 措 
施 , 让 恶意 服务 器 承担 一 定 的 后 果 。 

2. 多 对 多 用 户 读 写 模 式 的 需求 

不 同 于 传统 企业 级 单数 据 拥 有 者 , 云 存储 环境 下 数据 搜索 应 用 具有 多 数据 拥有 者 数据 
发 布 及 选择 性 访问 授权 、 多 源 数据 查询 等 特征 。 该 特征 下 ,将 使 用 户 面临 更 具 威 胁 的 攻击 ， 
如 不 可 信服 务 提供 者 与 部 分 恶意 数据 拥有 者 合谋 对 其 他 任何 用 户 隐 私 的 攻击 等 。 数 据 加 密 
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后 ,海量 的 数据 将 涉及 大 量 私 钥 的 管理 。 在 多 对 多 用 户 读 写 模式 中 ,涉及 大 量 用户 之 间 的 安 
全 认证 、 数 据 共 至 与 秘密 协商 ,同时 因为 我 们 的 方案 需要 多 用 户 之 间 可 以 授权 搜索 操作 并 进 
行 权限 回收 ,因此 权限 管理 是 研究 中 的 重点 和 难点 。 

实现 密 文 搜 索 方 案 中 的 多 对 多 用 户 读 写 是 一 件 复杂 的 事情 。 在 此 模型 中 ,如 果 有 一 个 
可 信 第 三 方 ,那么 相对 来 说 ,实现 会 容易 很 多 ,但 往往 这 样 的 可 信 第 三 方 是 很 稀缺 的 ,很 难 找 
到 这 样 一 个 合适 的 角色 。 

3. 大 数据 量 情景 下 的 效率 需求 

“不 管 是 安全 搜索 还 是 其 他 安全 或 隐私 保护 问题 ,如 果 频 桶 使 用 开销 极 大 的 公 钥 密码 ， 
其 意义 最 多 只 是 提供 了 一 个 “从 无 到 有 ”的 思路 。 一 个 方案 要 付 诸 实 践 ,必须 减少 公 钥 密码 
的 使 用 次 数 ”, 与 文献 [73] 的 作者 观点 不 谋 而 合 , 在 本 人 的 博士 学 位 论文 “中 ,我 也 曾 表达 
了 这 样 的 观点 。 在 云 存 储 服 务 环 境 下 ,大 量 的 数据 与 大 量 的 用 户 , 需 要 有 高 效 的 密 文 搜索 
方案 。 


6.3.2 最 新 云 存储 密 文 搜索 方案 


针对 云 存储 环境 下 特殊 的 需求 ,已 经 有 一 些 最 新 的 研究 成 果 。 这 些 研 究 为 云 存 储 环境 
下 密 文 搜索 找到 了 出 路 ,也 提供 了 新 的 研究 思路 。 下 文 将 详细 介绍 4 篇 最 新 研究 论文 。 

1. 基于 区 块 链 技术 的 云 上 加 密 数 据 的 搜索 

区 块 链 - ”是 一 种 按照 时 间 顺 序 将 数据 区 块 以 顺序 相连 的 方式 组 合成 一 种 链 式 数据 结 
构 , 并 以 密码 学 方式 保证 数据 不 可 得 改 和 不 可 伪造 的 分 布 式 账本 。 它 也 是 利用 块 链 式 数据 
结构 来 验证 与 存储 数据 、 利 用 分 布 式 节 点 共识 算法 来 生成 和 更 新 数据 、 利 用 密码 学 的 方式 保 
证 数据 传输 和 访问 的 安全 利用 由 上 自动 化 脚本 代码 组 成 的 智能 合约 来 编程 和 操作 数据 的 一 
种 全 新 的 分 布 式 基础 架构 与 计算 方式 。 区 块 链 具 有 去 中 心 化 .公开 透明 、 集 体 维护 、 信 息 不 
可 复 改 .匿名 性 等 特征 。 

在 文献 L76j 中 ,作者 提出 一 种 基于 区 块 链 的 去 中 心 、 可 徘 与 公平 的 密 文 搜索 方案 。 该 方 
案 利用 区 块 链 的 抗 自 改 \、 不 可 否认 且 可 验证 等 特性 ,使 得 数据 拥有 者 (Data Owner) 数据 用 
户 (Data User) 和 云 存储 服务 器 (Cloud Server) 三 者 可 以 公平 地 利用 资源 , 即 用 户 使 用 付费 
的 方式 访问 数据 拥有 者 的 数据 ,如 果 存 在 数据 不 正确 或 不 完整 的 情况 ,区 块 链 的 内 在 结构 会 
决定 这 次 交易 会 失败 ,数据 拥有 者 将 得 不 到 任何 回报 。 

在 该 方案 中 ,数据 拥有 者 与 数据 用 户 作为 点 对 点 节点 存储 数据 索引 信息 ,并且 采用 以 太 
Jj CEthereum) ? 中 智能 合约 (Smart Contract) 的 方式 存储 ,区 块 链 的 内 在 特性 决定 该 方案 
天 然 地 具有 抵制 恶意 服务 硕 的 能 力 。 

镶 能 合约 是 一 种 以 数据 化 方式 传播 .验证 与 执行 的 计算 机 程序 , 它 允 许 在 没有 第 三 方 的 
情况 下 进行 可 信 交 易 ,所 有 交易 可 追踪 且 不 可 逆 , 其 目标 是 既 提 供 优 于 传统 合同 方法 的 安全 
保障 ,又 减少 与 合同 相关 的 其 他 交易 成 本 。 智 能 合约 概念 于 1994 年 由 Nick Szabo"? ff 1X 
提出 。 

作者 使 用 智能 合约 取代 中 心服 务 需 ,实现 了 一 个 分 布 式 的 保障 隐私 的 密 文 搜索 方案 。 
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有 了 区 块 链 机 制 ,即使 有 恶意 的 用 户 ,也 不 需要 进行 验证 ,用 户 可 以 放心 地 接收 到 正确 的 搜 
索 结 果 。 在 该 方案 中 ,引入 了 公平 性 (Fairness) 机 制 , 利 用 区 块 链 的 激励 机 制 ,保障 诚实 的 
用 户 可 以 得 到 回报 ,而 恶意 用 户 什 么 也 得 不 到 。 他 们 实现 了 一 个 部 署 在 本 地 仿真 的 网 络 上 ， 
使 用 官方 以 太 坊 测试 网 络 的 原型 系统 。 

该 方案 的 数据 索引 也 是 使 用 倒 排 索引 结构 ,但 方案 并 没有 考虑 加 密 数 据 的 存放 ,认为 加 
蜜 数据 可 以 存储 于 任何 分 布 式 存储 网 络 , 比 如 星际 文件 系统 (InterPlanetary File System. 
IPFS)” 。 其 系统 结构 如 图 6-7 所 示 ,数据 拥有 者 将 加 密 的 倒 排 索引 存放 到 以 太 坊 智能 合 
约 上 ,请 求 访 问 时 发 送 搜索 凭证 (Search Token) ,智能 合约 利用 凭证 中 的 密 钥 读 取 相 应 索引 
信息 ,返回 搜索 结果 。 同 时 ,该 方案 还 文 持 索 引 的 更 新 操作 。 


中 智能 合约 


数据 拥有 者 


图 6-7 系统 结构 


该 方案 定义 了 4 个 算法 : Setup, Search, Add 和 Delete ,分 别 摘 述 如 下 。 

Setup 算法 如 图 6-8 所 示 。 该 算法 首先 为 每 个 关键 词 生成 倒 排 索引 ,然后 将 索引 中 的 文 
件 标识 (File Identifier) 分 成 a 十 1 份 ,每 份 包括 p 个 文件 ID。 对 于 每 一 份 文件 ID 集 , 生 成 
随机 数 x、 随机 化 后 的 文件 ID E d 和 定位 符 7, 将 (1 d ,r) 按 字母 序 存 人 列表 。 然 后 将 列表 
又 分 成 n 个 块 ,逐一 发 送 到 智能 合约 ,将 (1,d11r) 存 人 智能 合约 的 字典 7 中。 


Setup(DB): 
1) The data owner initializes an empty list L, and an empty dictionary c, and samples three keys K, K4, KP 2 {0,1}. 
2) For each keyword w € W: 
a) Kı + F(K,l||w); Ko — F(K,2||w); 
b) Set a + | PBC ],c + 0, where p denotes the number of file identifiers that can be packed. 
c) Divide DB(w) into o 十 1 blocks. Pad the last block to p entries if needed. 
d) For each block in DB(w): 
- id + id; ||ido||...||id,; r È (0,1)^; d ide Gg, (r); 1 F(K1,0); c+ +. 
- Add (l, d, r) to the list L in lex order. 
3) Set EDB = L; Partition EDB into n blocks EDB; for 1 <i < n, and send them to the smart contract. 
4) The smart contract initializes two empty dictionaries ^; and ^^, and an empty list IDge). 
5) For each received EDB;, the smart contract parses each entry in EDB; into (I, d, r), and adds each (l, d||r) to ^. 


6-8 Setup 算法 


Search 算法 如 图 6-9 所 示 。 该 算法 首先 根据 查询 关键 词 生 成 搜索 时 需要 的 几 个 密 钥 ， 
然后 根据 索引 大 小 将 该 搜索 分 解 为 玉 EFRA step 步 , 相 当 于 整个 查询 过 程 要 进行 尺 次 
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交易 ,每 次 交易 读 取 step * p 个 文件 ID。 该 方案 的 核心 搜索 思路 是 ,在 生成 索引 时 加 入 了 
定位 符 / ,那么 查询 时 ,便利 用 该 定位 符 找 到 关键 词 对 应 的 文件 ID。 在 搜索 算法 中 ,涉及 方 
案 提 到 的 公平 性 ,每 个 用 户 都 需要 为 他 的 查询 操作 付费 ,而 且 在 以 太 坊 的 智能 合约 中 ,使 用 
Gas 作为 支付 的 基本 单位 ,查询 用 户 一 方面 要 向 数据 拥有 者 支付 预 设 的 一 个 费用 ,同时 还 要 
向 合约 中 执行 操作 的 节点 (Worker 或 Miner) 支 付 一 定 的 协助 费用 。 


Search( K, K^, KP, w): 
1) Kı + F(K,1||w), Ko — F(K,2||w), KA — F(K^,1||w), KA + F(K^,2||w), KP — F(KP,w). 
2) The data owner sets c + 0, and estimates R and step. 
3) For i= 0 to R: 
Send search token ST = (K1, Ko, Kj‘, KÅ, KP,c) to the smart contract; Set c + c+ step. 
4) The smart contract asserts that the estimated gas cost is lower than the balance, and then: 
a) For i = 0 until Get returns | or i > step: 
- | € F(Ki,o); d,r © Get(7, 1); id — de Gk,(r)y; c++; i+ +. 
- Parse id into (idi, --- ,id,); Assert id; ¢ IDge (1 < j < p) and save id; to the state. 
b) Assert ^;^ has not been searched. 
c) For c — 0 until Get returns 1: 
- L+ F(Kf,c); d,r + Get(y4,l); id + d® Gka(r); c++; 
- Assert id ¢ IDge and save id to the state. 


6-9 Search 算法 


为 了 支持 索引 的 更 新 ,增加 了 Add 算法 和 Delete 算法 ,其 主要 思想 是 维护 一 个 Add 和 
一 个 Delete 列表 。 在 搜索 算法 中 ,除了 查询 原 有 索引 ,还 要 查询 Add 列表 ,并 且 要 判断 查询 
到 的 文件 ID 是 否 在 Delete 列表 中 ,最 后 查询 的 结果 就 是 原 有 索引 和 Add 列表 中 所 有 文件 
ID X f Delete 列表 中 相应 记录 。Add 算法 如 图 6-10 所 示 。 该 算法 首先 计算 所 有 相关 密 
EH ,然后 判断 新 加 入 的 关键 词 对 应 的 文件 ID 是 否 在 Delete WIFE. AE. ABR Delete 列 
表 中 相应 记录 ,然后 将 其 余 的 文件 ID ff Setup 算法 那样 加 入 区 块 链 中 。 


Add( K, K^. KP, id. Wig) - 
1) The data owner initializes an empty list L^, and then: 
a) For each keyword w € Wig: 
- Ki + F(K,1||w); Ko — F(K,2||w); Kf — F(K^,1||w); Kf — F(K^,2|w); KP — F(KP,u). 
-rÈ {0,1}; c — Get(o, w); If c =L then c + 0; l + F(K1*,c); d — id © G a (r); iddi — F(K?, id). 
- Add (I, d, r, idge) to L^ in lexicographic order. 
b) Send L^ to the contract. 
2) The smart contract initializes an empty list re of size |L“|, and parses each tuple of L^ into (I, d, 1, idyel), set i + 0. 
3) For each tuple in L4: 
if iddei € IDuel, then refi] + 1 and delete idde from IDgei, else refi] + 0 and add (l, d||r) to ^; i + +. 
4) The data owner reads re from the smart contract, and then: 
For i = 0 to |rel: 
- if reli] = 0 then fetch the i-th keyword w in Wig; c + Get(o, w); c++; Insert (w,c) into ø. 


6-10 Add 算法 


Delete 算法 如 图 6-11 所 示 。 该 算法 将 被 删除 的 关键 词 包含 的 文件 ID 加 入 Delete 列 
表 中 。 


第 6 章 — 密 文 云 存 储 信 息 检索 |P 123 


Delete( K”, id, Wig): 
1) The data owner initializes an empty list LP, and then: 
For each keyword w € Wig: 
- KP + F(KP,w), iddei — F(KP,id); Add idge to LP in lex order. 
2) Send LP to the contract. 
3) The smart contract adds idgg to IDue for each element idge; in LP: 


6-11 Delete 算法 


该 方案 提供 了 一 种 抵制 恶意 服务 需 , 保 证 用 户 公 平 性 的 思路 。 该 方案 的 缺点 在 于 ,只 文 
持 单 关 键 词 的 检索 。 

其 他 基于 区 块 链 技 术 实 现 密 文 搜索 的 方案 还 有 文献 [80], 该 方案 将 索引 与 数据 全 部 存 
储 于 区 块 链 的 对 等 网 络 中 。 本 书 作 者 认为 这 种 方式 需要 有 一 定 的 驱动 机 制 ,让 用 户 相 信和 存 
在 这 样 一 个 大 规模 的 对 等 网 络 可 以 存放 大 量 的 数据 ,而且 保 证 数据 随时 随地 可 以 访问 。 

2. 云 环境 下 支持 隐私 保护 的 大 规模 的 基于 内 容 的 加 密 图 像 搜 索 

由 于 图 像 处 理 技术 的 快速 发 展 ,大 量 高 分 状 率 的 照片 和 视频 以 指数 级 的 速度 增长 ,使 得 
这 样 海量 的 图 像 数 据 的 存储 、 共 享 和 搜索 成 为 一 个 极 具 挑战 性 的 问题 。 例 如 ,Facebook 上 
每 月 增加 的 图 片 超过 10 亿 张 ,Flickr 图 片 社交 网 站 2015 年 用 户 上 传 图 片 数 目 达 7. 28 16 
张 ,淘宝 网 的 后 端 系 统 上 保存 着 286 亿 多 张 图 片 。 如 何 组 织 、 表 达 、 存 储 、 管 理 、 查 询 和 检索 
这 些 海量 的 数据 ,是 传统 数据 库 技术 面临 的 一 个 重大 挑战 。 由 于 图 像 具 有 形象 .直观 、 内 容 
丰富 等 特点 ,更 接近 人 们 的 认 知 方式 ,因此 成 为 不 可 或 缺 的 多 媒体 内 容 。 如 何在 浩瀚 的 图 像 
库 中 方便 、 快 速 、 准 确 地 查询 用 户 所 需 的 图 像 ,成 为 图 像 信 息 检 索 领 域 研 究 的 热点 。 而 在 当 
前 云 计 算 环境 下 ,如何 保障 图 像 信息 的 隐私 安全 ,也 是 一 个 极 具 挑 战 性 的 问题 。 

2018 年 年 初 Facebook 被 曝 其 8700 万 用 户 数据 遭 到 泄露 ,一 时 间 用 户 隐 私 权 保护 问题 
成 为 外 界 关 注 焦 点 。 根 据 伊利 诺 伊 州 州 法 ,每 张 被 Facebook 私自 决定 识别 的 照片 ,都 可 能 
获得 1000— 5000 美元 的 赔偿 。 因 数据 隐私 保护 问题 给 该 公司 市 来 巨额 罚单 的 同时 ,也 使 其 
声誉 及 用 户 对 其 的 认可 与 信任 度 大 幅 下 降 。 

2017 年 ,一 球 名 为 Facezam 的 App 应 用 宣称 其 利用 部 署 在 云端 的 神经 网 络 , 可 以 在 10 
秒 内 完成 对 数 十 亿 Facebook 账号 的 对 比 匹配 ,并 达到 70% 的 正确 率 。 其 令 人 惊讶 的 索引 
和 面部 识别 技术 ,让 Facebook 用 户 深 感 不 安 。 昌 然后 来 发 现 Facezam 是 一 家 名 为 Zacozo 
的 广告 创意 公司 的 一 个 骗局 ,但 此 事件 也 不 是 子虚乌有 ,其 功能 以 目前 的 技术 是 不 难 实 
现 的 。 

例如 ,Facebook Messenger 应 用 新 增 了 一 项 人 工 智 能 功能 ,可 以 从 上 传 到 该 服务 的 照 
片 中 识别 出 用 户 的 好 友 。 这 项 新 功能 最 初 在 澳大利亚 推出 ,但 短期 内 可 能 无 法 进入 欧洲 市 
场 。 其 原因 在 于 ,在 人 脸 识别 技术 是 否 侵 犯 用 户 隐 私 这 一 问题 上 ,该 公司 一 直 与 欧盟 数据 保 
JP M ETE BG 

在 当前 的 云 计 算 大 背景 下 ,已 经 有 一 些 云 服务 提供 者 支持 图 像 和 视频 数据 存储 服务 , 比 
如 Amazon Cloud Drive, Apple iCloud,Cloudinary,Flicker, Youtube 和 Google 等 。 
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通常 ,个 人 照片 和 图 像 数 据 中 包含 有 大 量 的 敏感 信息 ,比如 人 的 肖像 与 他 人 的 关系 、 情 
景 、 位置 和 亲属 关系 等 ,而 目前 关于 云 环 境 中 的 图 像 隐 私 保护 方案 还 比较 缺乏 。 

为 了 保护 图 像 信 息 的 隐私 , 通 稼 是 在 将 图 像 上 传 到 云 存 储 服 务 需 之 前 ,对 图 像 数 据 进 行 
加 密 处 理 , 而 图 像 加 密 后 ,如 何在 用 户 大 量 的 图 像 中 找到 需要 的 图 片 是 一 个 吸 待 解决 的 
问题 。 

图 像 检 索 的 本 质 是 对 图 像 特征 的 提取 与 基于 特征 的 匹配 技术 。 图 像 的 特征 包括 图 像 的 
文本 特征 和 视觉 特征 。 所 谓 图 像 的 文本 特征 ,是 指 与 图 像 相关 的 文本 信息 ,比如 图 像 的 名 
称 \ 对 图 像 的 注解 文字 等 。 图 像 的 视觉 特征 是 指 图 像 本 身 所 拥有 的 视觉 信息 ,又 可 以 进一步 
分 为 通用 的 视觉 特征 和 领域 特征 ,如 颜色 纹理 ,形状 等 属于 图 像 通 用 特征 ,而 光谱 特征 则 属 
于 地 理科 学 中 遥感 影像 独 有 的 特征 。 图 像 的 内 容 包括 图 像 的 视觉 信息 等 物理 特征 ,还 包括 
视觉 特征 所 带 来 的 高 层 语义 特征 。 物 理 特 征 属 于 低层 视觉 信息 ,主要 包括 颜色 纹理、 形状 ; 
语义 信息 属于 图 像 的 高 层 视 觉 信 息 ,主要 包括 对 象 .空间 关系 ,场景 行为 .情感 等 图 像 内 容 。 

图 像 检索 按 描述 图 像 内 容 方 式 的 不 同 可 以 分 为 两 类 ,一 类 是 基于 文本 的 图 像 检索 
(Text Based Image Retrieval. TBIR) , 另 一 类 是 基于 内 容 的 图 像 检 索 (Content Based Image 
Retrieval,CBIR) 。 早 期 基于 文本 的 图 像 检 索 技 术 , 需 要 对 图 像 进 行 标注 ,市 来 较 大 的 额外 
开销 ,使 得 它 只 适用 于 小 规模 的 图 像 数据 。 针 对 目前 的 大 规模 图 像 数 据 ,比较 广泛 采用 的 是 
基于 内 容 的 图 像 检索 。 

典型 的 基于 内 容 的 图 像 检索 基本 框架 如 图 6-12 所 示 。 它 利用 计算 机 对 图 像 进行 分 析 ， 
建立 图 像 特征 矢量 描述 并 存 入 图像 特征 库 。 当 用 户 输入 一 张 查询 图 像 时 ,用 相同 的 特征 提 
取 方 法 提取 查询 图 像 的 特征 得 到 查询 回 量 ,然后 使 用 某 种 相似 性 度 测量 方法 计算 查询 癌 量 
与 特征 库 中 各 个 图 像 的 特征 回 量 的 相似 性 大 小 ,最 后 按 相 似 性 大 小 进行 排序 并 顺序 输出 对 
应 的 图 片 。 


数字 图 像 检索 结果 


上 一 一 


原始 图 像 库 对 象 特征 索引 库 
图 6-12 ”图像 检索 基本 框架 


但 是 , 密 文 图 像 信息 的 检索 则 涉及 加 密 图 像 上 的 处 理 。 最 近 ,Zhang 等 提出 一 种 云 
环境 下 文 持 隐私 保护 的 大 规模 的 基于 内 容 的 加 密 图 像 搜 索 方 案 , 利 用 同 态 加 密 算法 进行 密 
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文 域 上 数据 的 处 理 。 该 方案 利用 基于 属性 的 密码 算法 ,采用 访问 树 结构 ,从 而 支持 细 粒 度 的 
访问 控制 。 

在 该 方案 中 ,搜索 用 户 可 以 通过 数据 拥有 者 基于 属性 的 授权 访问 他 的 图 像 文 件 , 而 不 需 
要 用 户 与 数据 拥有 者 之 间 的 交互 ,其 大 部 分 计算 密集 型 的 工作 都 由 云 服 务 帮 完成。 该 方案 
有 4 个 实体 , 即 用 户 (Users) . z IR #8 (Cloud Server. CS) 、 密 钥 代 理 (Key Agent,KA) 和 一 
个 可 信 方 (Trusted Party, TP) ,其 中 云 服 务 器 和 密 钥 代理 是 半 可 信 的 。 

该 方案 中 的 KA 和 CS 在 云端 ,实验 时 采用 4 台 PC 搭建 了 一 个 集群 ,部 署 了 Hadoop 
HDFS 和 MapReduce, 由 1 个 名 字 节 点 (Name Node) 和 4 个 数据 节点 (Data Node) 组 成 ,TP 
用 一 台 专 门 的 PC 实现 ,客户 端 使 用 Android 手机 和 平板 电脑 ,测试 数据 集 使 用 了 一 百 万 多 
张 现实 中 的 生活 照片 ,并且 使 用 OpenCV 作为 特征 提取 库 。 

查询 图 像 的 特征 向 量 为 X={zi,…'ze}) A N MiB (Y ss YY). a KY AHA 
度 测 量 曙 数 定 义 如 公式 (6-1) 所 示 , 采 用 & 近邻 算法 (k-Nearest Neighbors,k-NNs) 进 行 相 
似 性 分 值 的 计算 。 

9 = S* -róG;.yj) 
AP: 
1 if y5 is a k-NN of zx; 
CCziyyi = (6-1) 
0 otherwise 

在 k-NNs 中 ,使 用 欧 氏 距离 (Euclidean Distance) 来 度量 相似 性 ,并 且 利 用 聚 类 方法 
(Clustering) 来 减少 搜索 时 间 , 使 用 多 级 同 态 加 密 (Multi-level Homomorphic Encryption) 
来 实现 数据 拥 者 和 查询 用 户 的 非 交 互 授 权 。 其 中 , 同 态 加 密 算 法 的 同 态 性 如 公式 (6-2) 
所 示 。 

HE. El(mi sk) « HE. E(m, .k) =HE. Elm; Mmk) 
HE. EXn, ,k) + HE.E(m,,k)= HE. ECm, +m,,k) (6-2) 

多 项 式 函 数 的 同 态 性 如 公式 (6-3) 所 示 。 

f (HE. EC»; ,5) HE. E(m,.k) ,:-:-; HE. ECn, ,RD)) = HE. ECf Cm, ,ms ,m,) sk) 


(6-3) 
密 钥 的 转换 如 公式 (6-4) 所 示 。 
k= | |k; 
([[47°)- Een. + ([[k:)=E(m, [| &;) 2 HE. EG .k) (6-4) 


欧 氏 距离 计算 如 公式 (6-5) 所 示 。 
D(x,y) =d*(z5y) 
HE. E(D(x.y).k) = >) CHE. EGx G) .£) — HE. ECy G),k))? (6-5) 
因为 同 态 密 码 算 法 的 同 态 性 , 欧 氏 距离 的 计算 可 以 外 包 给 任何 云 服 务 顺 。 该 云 服 务 需 
既 不 用 知道 密 文 的 密 钥 ,也 不 用 知道 特征 回 量 , 而 且 其 计算 结果 也 不 会 泄露 。 设 Bp 表示 同 
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态 国 数 , 欧 氏 距离 的 计算 公式 如 (6-6) 所 示 。 
Dp CHE. E(x,k), HE.E(y,k)) = HE.E(D(x,y),k) (6-6) 
该 方案 的 系统 结构 图 如 图 6-13 所 示 。 首 先 数 据 拥有 者 从 原始 图 像 提 取 特 征 , 生 成 图 像 
描述 符 , 然 后 根据 这 些 描述 和 从 构造 索引 ,同时 将 该 索引 发 送 到 云 服务 如 存储 ,将 图 像 描 述 符 
使 用 同 态 密码 算法 加 密 发 送 给 KA。 云 服务 胡 通 过 访问 树 判 断 查询 用 户 是 否 满足 数据 拥有 
者 预 设 的 属性 条 件 , 如 果 是 授权 用 户 , 云 服务 右 就 查询 数据 找到 匹配 的 图 像 描述 符 ,然后 请 
求 KA 进行 密 钥 转换 ,利用 同 态 性 计算 查询 图 像 与 图 像 库 中 图 像 的 相似 性 得 分 ,并 返回 
Top-k 个 相似 性 分 值 最 高 的 图 像 ID. 


云 服务 器 密 钥 代理 E 
| 


Urn He — | ax 图 像 Top-k : — 
rot onm ^X cD E | 、 搜索 /| ; 公共 数据 流 


sw 
*.... 


索引 存储 ) wt) | | 一 > 
-一 存储 与 


ESER - —— - -一 J| 
§ if] = ” X 
———— A —————— E ， 数据 流 


Seanad 


E 
;搜索 
| 数据 流 


图 6-13 系统 结构 


TP 负责 生成 密 钥 。 在 初始 化 阶段 ,TP 生成 用 于 同 态 加 密 的 主 密 钥 (Master Key)k ,并 
生成 两 个 随机 密 钥 Res A k kA ,满足 k csk kA —k ,将 Res All k kA 通过 安全 信道 分 别 发 送 给 CS 
Al KA. 

在 密 钥 生成 与 策略 公告 阶段 ,一 旦 有 新 用 户 加 入 ,TP 生成 3 个 随机 密 钥 Buh, Re, s W 
FE R= RRR ME Rub, 人 通过 安全 信道 分 别 发 送 给 该 新 用 户 `CS 和 KA, 

每 个 用 户 为 自己 的 数据 自 定 义 访问 策略 ,用 访问 树 作 为 CP-ABE 的 授权 策略 树 ,将 属 
性 的 Hash 值 作 为 叶子 节点 ,查询 用 户 将 自身 属性 的 Hash 值 发 送 给 CS, CS 根据 用 户 的 属 
性 是 否 满 足 访问 树 决定 是 否 授 权 查 询 操 作 。 

当 用 户 上 传 图 像 时 ,他 首先 提取 特征 描述 符 , 然 后 使 用 自己 的 密 钥 加 密 这 些 特征 向 量 ， 
见 公 式 (6-7)。 


HE. | Gay >. Cx jk.) (6-7) 
创建 索引 时 ,用 户 将 特征 癌 量 的 密 文 发 送 给 KA,KA 计算 公式 如 (6-8) 所 示 , 得 到 使 用 


kk 加密 的 密 文 。 
k HE.E({X,,,*…)},k,) k’=HE.E({X,,,…)},k,k’) (6-8) 


第 6 章 密 文 云 存储 信息 检索 I 17 


然后 ,KA 将 以 上 生成 的 新 密 文 发 送 给 CS,CS 执行 操作 见 公 式 (6-9) ,得 到 最 后 的 密 文 。 

CS 将 此 用 户 的 索引 发 送 到 CS 的 数据 库 , 但 要 标记 该 索引 的 数据 拥有 者 。 
hk HE. EC{ Xi 9°} kb, Ru) Ry - HE. EC(Xia 5°} b ELE) 
= HE. EC(X,, 77). 4) (6-9) 

搜索 过 程 分 为 两 个 阶段 ,在 第 一 级 搜索 (Level-l Search) 'P ,查询 用 户 根 据 查 询 的 图 像 
生成 查询 癌 量 X, ,并 使 用 其 密 钥 加 密 查 询问 量 HE. ECX, ,k,) ,然后 发 送 给 KA, 

KA 生成 新 的 密 文 HE. ECX, sk, k RIE fa CS,CS 最 后 生成 密 文 见 公式 (6-10) 。 

HE. E(X, ,k, kk kcs) = HE. E(X, ,kkcs) 


= HE. E(X, ku) (6-10) 
KA 找到 与 查询 特征 向量 最 近 的 聚 类 ,并 得 到 该 类 中 的 k-NN。KA 的 引入 可 以 让 CS 


得 不 到 相似 距离 。 

在 第 二 级 搜索 (Level-2 Search) 中 ,请 求 CS 计算 过 与 所 有 NN RŽ mp ji ng) SB S , B 
离 密 文 发 送 给 KA, KA 解密 并 确定 ,基于 距离 器 量 和 相应 的 图 像 ID ,计算 所 有 图 像 的 相似 
性 得 分 ,将 最 高 得 分 的 图 像 ID 发 送 给 用 户 ,用 户 再 从 数据 库 中 检索 图 像 。 

该 方案 的 缺点 在 于 ,一 个 可 信 第 三 方 的 实现 在 实际 场景 中 较 难 找到 。 

3. 基于 CAK-means 聚 类 算法 的 可 搜索 加 密 方案 

聚 类 就 是 将 一 个 数据 对 象 的 集合 划分 成 类 似 的 对 象 集 的 过 程 。 每 一 个 类 也 称 为 艇 
(Cluster) ,每 一 个 复 都 有 一 个 中 心 点 , 同 复 中 的 对 象 彼此 相近 ,不同 复 中 的 对 象 相 异 。 文 档 
聚 类 就 是 对 文档 进行 划分 ,使 得 同类 间 的 文档 相似 度 比 较 大 ,不 同类 的 文档 相似 度 比较 小 。 
主要 的 聚 类 算法 可 以 分 为 如 下 几 类 : 基于 层次 方法 的 聚 类 算法 、 基 于 密度 的 聚 类 算法 、 基 于 
网 格 的 聚 类 算法 以 及 基于 模型 的 聚 类 算法 。 

为 了 提高 密 文 检索 的 效率 ,Chen 等 “提出 了 一 种 基于 层次 聚 类 的 支持 隐私 保护 和 排 
序 的 关键 词 密 文 检索 方案 (Multi-keyword Ranked Search over Encrypted data based on 
Hierarchical Clustering Index,MRSE-HCI) 。 该 方案 提出 了 一 种 基于 动态 K-means 的 分 层 
RÆ (Quality Hierarchical Clustering,QHC) 算 法 , 它 事 先 指 定 一 个 国 值 ,在 此 基础 上 对 文 
档 进 行 聚集 并 划分 为 多 个 子 复 ,直到 达到 集群 的 约束 条 件 。 此 外 ,还 引入 了 最 小 哈 硕 子 树 结 
构 来 验证 检索 结果 的 完整 性 。 但 QHC 算法 需要 经 过 多 次 迭代 计算 才能 得 到 一 个 稳定 的 
K 值 。 

为 了 改善 以 上 问题 ,作者 提出 了 一 个 基于 CAK-meansCa Combination of Affinity propagation 
CAP) and K-means clustering) RŽ $5: 3; ff n] 18 RIN 25 7; 3&0 。 因 为 K-means 算法 需要 事 
先 指 定 开 值 以 及 K 个 初始 类 簇 中 心 点 ,而 这 KK 个 中 心 点 往往 是 随机 选取 的 ,因而 具有 很 大 
的 随意 性 。K-means 聚 类 方法 通过 多 次 迭代 得 出 更 为 合理 的 聚 类 结果 。 为 了 提高 天 值 和 
中 心 点 选取 的 效率 , 先 使 用 AP 算法 初始 化 K-means ,得 到 较为 合理 的 天 值 和 中 心 点 ,然后 
再 进行 K-means 聚 类 。 该 方法 不 仅 大 大 减少 了 算法 迭代 的 次 数 ,而 且 提 高 了 聚 类 结果 的 科 


此 外 ,因为 同 个 聚 类 中 的 文档 通 稼 以 较 大 概率 同时 读 取 ,为 了 改进 查询 效率 ,该 方案 提 
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出 将 同一 聚 类 中 的 密 文 文档 连续 存储 ,可 以 极 大 地 提高 文件 读 写 效率 。 

该 方案 使 用 回 量 空间 模型 ,生成 每 个 文档 的 关键 词 二 进 制 回 量 ,然后 使 用 安全 k-NNs 
算法 和 欧 氏 距离 计算 文档 的 相似 性 得 分 ,对 搜索 结果 进行 排序 。 

K-means 方法 是 把 含有 nn 个 对 象 的 集合 划分 成 指定 的 天 个 艇 。 每 一 个 簇 中 对 和 象 的 平 
均值 称 为 该 簇 的 聚 点 (中 心 ) ,两 个 秘 的 相似 度 就 是 根据 两 个 聚 点 而 计算 出 来 的 。 假 设 聚 点 
x.y 都 有 zz 个 属性 (在 本 文 介绍 的 文档 聚 类 中 指 的 是 m 个 关键 词 ), 取 值 分 别 为 Lists 
Tmo VieYoe Vm M) a Aly 的 距离 如 公式 (6-11) 所 示 。 


d= |(SJlai—y l?) (6-11) 
近邻 传播 算法 (Affinity Propagation Algorithm) ,简称 AP 算法 ,是 由 Brendan J. Frey 
和 Delbert Dueck“ F 2007 年 在 著名 科学 杂志 《科学 》(SCIENCE) 中 提出 的 一 种 新 型 的 聚 
类 算法 。 该 算法 的 基本 思想 是 将 数据 看 成 网 络 中 的 节点 ,通过 在 数据 点 之 间 传 递 消息 一 一 
吸引 度 (Responsibility) 和 归属 度 (Availability) ,不 断 修改 聚 类 中 心 的 数量 与 位 置 ,直到 整 
个 数据 集 相 似 度 达 到 最 大 ,同时 产生 高 聚 类 中 心 ,并 将 其 余 各 点 分 配 到 相应 的 聚 类 中 。 
该 方案 的 文件 加 密 、 索引 构造 . 聚 类 和 搜索 过 程 如 图 6-14 所 示 。 首 先 数据 拥有 者 将 每 
个 文件 转换 成 一 个 关键 词 二 进 制 向 量 ; 然后 调用 CAK-means 聚 类 算法 建立 聚 类 索引 ; 最 
后 调用 安全 k-NNs 算法 加 密 索 引 。 回 量 的 维 数 取 决 于 字典 的 大 小 , 它 和 直接 决定 了 回 量 转换 
的 时 间 。 生 成 完整 索引 的 时 间 与 数据 集 F 中 的 文件 数 和 字典 中 关键 字 的 数量 有 关 。 


Ç 加 密 Ç 
X (ij AES) QO 
F={F, F..., Fn} C={C, Loon Ca} 


HERK üt i] & 
文档 向 量 


数据 拥有 者 


利用 安全 kNN SHEET 


插入 文档 id 信息 得 到 


图 6-14 文件 加 密 、 索 引 构造 、 聚 类 和 搜索 过 程 
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详细 的 检索 过 程 : 在 用 户 收 到 检索 陷 门 后 ,服务 器 利用 相似 性 得 分 公式 计算 出 索引 中 
每 个 簇 中 心 点 与 检索 陷 门 的 相关 性 分 数 , 得 到 一 个 相关 性 的 排序 结果 ; 然后 取出 相关 性 最 
高 的 复 中 心 点 ,计算 该 复 内 其 他 点 与 陷 门 的 相关 性 分 数 , 设 置 一 个 靖 值 ,分 数 高 于 该 准 值 的 
点 则 被 提取 出 来 ; 接着 对 临近 的 簇 依次 重复 以 上 步骤 ,直到 得 到 满足 条 件 的 文档 。 基 于 
CAK-means 算法 的 SSE 方案 具体 构造 如 下 : 
Keygen(1 ) : 
CD 数据 拥有 者 随机 产生 一 个 (2 十 x 十 1) 维 回 量 S 和 两 个 可 逆 的 (x 十 十 1) X (n +u+1) 
2 6 [EE {M,,M,}.sk = {S,M,,M,}; 
(2) 随机 产生 一 个 PARA b, 
Index(F .sk): 
(1) 输入 私 钥 {sk sk) 和 数据 集 下; 
(2) 从 下 中 提取 出 字典 W; 
(3) 将 下 中 的 每 个 文档 Ff; 转换 为 器 量 f; 
(4) 调用 CAK-means 聚 类 算法 生成 明文 聚 类 索引 I; 
(5) 通过 将 f£; 分 解 为 两 个 向 量 , 将 f; 的 维度 从 nn 扩展 到 (2 十 zx 十 1) ,如 下 所 示 。 
MRS 的 第 j 位 是 0 
dij] =d] =4d;LjJ 
否则 
d:Lj]=d:Lj]— diL] 
将 索引 加 密 为 {Mi fiM? fi} 并 上 传 给 云 服 务 器 。 图 6-14 详细 介绍 了 密 文 聚 类 索引 的 
构造 过 程 。 
Enc(k . F): 利用 对 称 加 密 算 法 加 密 文 档 集合 F 并 上 传 至 云 服 务 器 。 
Trapdoor(Q .sk) : 数据 用 户 将 要 搜索 的 关键 字 发 送 给 数据 拥有 者 。 在 分 析 查 询 请 求 之 
后 ,数据 拥有 者 将 用 字典 W 建立 查询 癌 量 Q 。 
通过 将 Q 分 解 为 两 个 回 量 , 将 Q 的 维度 从 nn 扩展 到 (2 十 x 十 1) ,如 下 所 示 。 
MRS 的 第 i 位 是 1 
QL =QL]j= QL 
否则 
Q';]-QUj]— Q'Lj] 
最 后 ,产生 陷 门 To— (Mi Q'.M; Q FFARR A IPS EH 。 
Search(T, ,IT skop): 云 计算 服务 器 接收 到 来 自 数据 用 户 的 查询 To 后 ,按照 公式 (6-12) 
计算 To MASI 1. 的 相关 性 得 分 。 
To * I. = (Mi '.Q'.Mz Q") + (Mi fi. Ms fi) 
=Q- ft fi 
E (6-12) 
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服务 器 选择 最 高 相关 性 得 分 集群 。 对 于 匹配 集群 中 包含 的 每 个 文件 , 云 服务 器 从 索引 
I. 中 提取 相应 的 加 密 文 件 回 量 , 然 后 根据 文件 相似 性 返回 eu 个 文件 。 

Dec (Eo +k): 在 接收 到 ,os 个 加 密 文件 后 ,数据 用 户 使 用 密 钥 & 解密 密 文正 。 以 获得 明 

我 们 提出 的 基于 CAK-means 算法 的 SSE 方案 ,提高 了 检索 效率 以 及 检索 问 量 与 文档 
之 间 的 相关 性 ,对 密 文 排序 产生 了 有 益 影 啊 ; 并 且 通 过 改进 文件 存放 位 置 (File Locality) In] 
题 , 极 大 地 提高 了 文件 读 写 效 率 。 

4. 基于 PUF 的 抵抗 内 存 泄露 攻击 的 多 关键 词 排序 密 文 检索 方案 

大 部 分 已 有 的 SSE 方案 都 是 基于 攻击 者 无 法 获取 数据 拥有 者 内 存 中 的 私密 数据 ,然而 
在 实际 应 用 中 ,各 种 侧 信道 攻击 方法 总 是 可 以 得 到 内 存 中 的 隐私 数据 。 针 对 目前 普遍 存在 
的 侧 信道 攻击 ,若干 内 存 泄 露 攻 击 方案 ”被 提出 。 

针对 SSE 方案 中 可 能 存在 内 存 泄露 攻击 ,Dai 等 ”首次 提出 了 一 种 安全 的 抵抗 内 存 泄 
露 攻 击 的 SSE 方案 (Memory Leakage-Resilient Searchable Symmetric Encryption, MLR- 
SSE). Ir SE fI] FAW FEA n] v BE eK BL (Physically Unclonable Functions. PUFs) 和 模糊 提 
Wit (Fuzzy Extractor, FE) ,实现 抵抗 内 存 泄露 攻击 。 但 MLR-SSE 77 98 C 3c FF fn] FLAY OS E 
词 检索 。 

为 了 实现 一 个 抵抗 内 存 泄 露 攻 击 的 多 关键 词 排序 密 文 检索 方案 ,作者 提出 了 一 个 基于 
PUF 的 方案 (Multi-keyword Ranked Search Scheme against Memory Leakage. MRSS- 
ML)", MRSS-ML 利用 PUFs?*** 4t FE^" 实现 抵抗 内 存 泄 露 攻击 的 更 高 安全 性 ,并 通 
过 构造 查找 表 和 相似 性 得 分 表 来 实现 多 关键 词 排序 检索 。 

首先 ,物理 不 可 克隆 函数 的 定义 如 下 。 

定义 6-1 物理 不 可 克隆 函数 (Physically Unclonable Functions, PUFs): 算法 P = 
(Sample, Eval) 是 一 个 含有 三 元 组 参数 (1 ,d ,6) 的 PUFs 族 ,P 应 满足 以 下 特性 : 

不 可 预测 性 : 对 于 一 个 激励 - 啊 应 对 集合 e ,在 小 差错 范围 内 很 难 预测 到 新 随机 激励 
s 的 响应 ,其 中 DS {s,,r;,1\Si<q} Her EO, RAXA HER PUF 称 之 为 
满足 三 元 组 参数 (1,d ,6) WJ PUF, 
评估 : Eval 算法 以 安全 参数 1 .索引 标识 符 idp 和 激励 ; 为 输入 ,高 效 输 出 啊 应 ~。 
有 界 噪声 : 对 于 同一 激励 s € (0.1) ,执行 两 次 算法 Eval? ,idp,s) 后 ,两 次 响应 
Cr, 和 xs) 的 汉 明 距离 dius 应 满足 di; <d ,其 中 4 是 一 个 噪声 界限 。 
不 可 克隆 : 给 定 一 个 PUF ,不 存在 有 效 技术 使 得 克隆 出 另外 的 PUF 满足 PUF = 
PUF, 
单身 性: 对 于 给 定 PUF 和 响应 x, 无 法 找到 其 对 应 满足 等 式 Eval(1 ,idp,s) =r 
的 激励 *。 

从 上 述 介 绍 可 知 ,依赖 于 物理 架构 的 PUF 可 以 计算 物理 激励 并 输出 可 能 存在 噪声 的 响 
。 为 了 克服 PUF 噪声 缺陷 ,利用 模糊 提取 器 恢复 有 用 的 私密 信息 。 模 糊 提取 器 ”的 定 
义 见 定义 6-2。 


E 
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定义 6-2 模糊 提取 器 (Fuzzy Extractor. FE): 一 个 满足 三 元 组 参数 (1 ,d ,6) 的 FE 是 由 
两 个 高 效 算法 (Gen,Rep) 构 成 。 
* Gen: 生成 算法 ,输入 一 个 2 位 的 串 立 ,输出 一 个 随机 串 st € {0,1) ”和 辅助 数据 
ad€{0,1}". 
* Rep: 重 现 算法 ,输入 一 个 7 位 的 噪声 串 w 和 辅助 数据 ad ,输出 一 个 6 位 随机 串 sz 
模糊 提取 硕 具 有 以 下 两 个 特性 : 
。 正确 性 : 设 dis 为 两 个 变量 (w 和 w') 的 汉 明 距离 , 重 现 算法 FE. Rep(w’.ad) =st 
成 立 当 且 仅 当 汉 明 距 离 满足 dis 硅 d. 
。 安全 性 : KU BO go iio 89353 5] 4p dg RS ER w 从 U 中 选 出 ,即使 辅助 数据 ad 
K Fe ee FE 输出 st EU, 
为 了 实现 保护 隐私 的 搜索 结果 的 排序 ,MRSS-ML 方案 还 利用 了 保 序 函 数 加 密 相 似 性 
得 分 。 这 里 定义 的 保 序 函数 是 对 文献 [22] 的 改进 ,其 形式 化 定义 如 下 。 
定义 6-3 RFF HAW COrder-Preserving Function, OPE): f (r)—X,-,a; *hGr i) 
r。 其 中 ,rt 是 函数 的 度 ,a; 是 一 个 正 系数 ,h(x ,i) 是 一 个 递归 计算 ,r 是 一 个 为 保护 函数 免 
遭 攻 击 的 随机 数 。h Cx ,i 进一步 定 义 如 公式 (6-13) 所 示 。 
l if 10; 
Guns. if i=1; (6-13) 
(l+e)*(h(z,i—1)+ Bex) if i11 
其 中 B,e 是 两 个 常数 。 为 了 确保 排序 结果 ,随机 数 r 应 满足 rE (0.27 ) ,其 中 7y 是 一 
个 整数 。OPF 具体 定义 和 证 明 参 见 文献 L22j]。 
主要 构造 过 程 如 图 6-15 所 示 。 


Keygen(1 ) : 由 数据 拥有 者 执行 的 密 钥 生成 算法 。 输 入 参数 4 ,输出 密 钥 天 。 

CD 选取 满足 各 个 3 元 组 参数 的 PUF: (p+ logsn,di ,61) PUF),(t,d,,6,) PUF, 和 (t.d;,6;) PUF;. 

(2) 输出 密 钥 K = (PUF, ,PUF, ,PUF,), 

BuildIndex(K ,D) : 由 数据 拥有 者 执行 的 索引 创建 算法 。 输 入 密 钥 K 和 文档 集 也 ,输出 索引 工 和 加 密 文 
档 集 C 。 

(1) 初始 化 。 

(D 遍历 文档 集 D 并 创建 包含 不 同 关 键 词 的 词典 Ww’. 


O 创建 包含 W’ 和 虚拟 关键 词 的 新 词典 W ,根据 关键 词 w, CW 构造 链表 Dw). 

(2) 创建 查找 表 工 。 

D 对 于 w;EW fij € [1.5 ] HT € ut;,, = PUF, (w;||j) MCt;,; adt; ,;) *- FE,. Gen(ut;,;). 

© 对 于 w;EW fl D; € D. it  us;,; = PUF, Gd (D;,;)) M idc;,; =Enc(us;,;,id;,,), HP idc;, 是 
D Gw,) PH j^. 个 加 密 标识 符 。 

© 对 于 w,€W fij E [1,1DCw;)|1], 置 TLrt;,;] = idei;. Fv<v MAF v-v Hm, 位 随机 串 被 分 配 
到 了 中 ,确保 工 中 无 空闲 位 , 且 将 余下 v-v 个 对 应 地 址 设 成 随机 值 。 


6-15 MRSS-ML 方案 构造 
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(3) 生成 辅助 数据 表 T 

Q FF i€[1,n] f ;€[1.n], & T'[w;] = adt; j. 

© 对 于 i€E[m 十 1,101] f j € [1.n]. t T [w] = adrt;, ,其 中 adrt;,; 是 与 adti 长 度 相同 的 随机 串 。 

(4) 构造 得 分 表 A。 

D XFT DED 和 w;EW, 计 算 相 似 性 得 分 S;,; —Score(D; w: ) ,计算 CS,,,= f(S;,,) ,其 中 FC +) 是 一 
个 保 序 函数 。 

© 对 于 DiED Mw; €W. ALidc;;] = CS;.. 

(5) 生成 加 密 文 档 C; . 

对 于 D; € D ,计算 uc; =PUF, Gd CD; )) (rciyadci)<FE:.Gen(xci) 和 Ci 一 Enc((rci, Di),adci)。 

(6) 输出 索引 T = (TA) 和 加 密 文 档 集 C = (C, ,Cs ，…，,C，,) 。 

TrapdoorGen(K Q): 由 数据 拥有 者 执行 的 陷 门 生成 算法 。 输 入 密 钥 K 和 查询 关键 词 集 Q ,输出 陷 门 TT,。 

COD HF w EQ fl j €[1.n ] ,计算 xti 2 PUF; Cw, | lj) 和 rt;,; =FE,. Rep(ut;,; ,adt;,,), HF adt; j 是 
存储 在 工 中 的 辅助 数据 。 

(2) 输出 陷 门 T, — (TL; 1i EP Tui = (tig ortig tt ortisn) 

Search( I.T.) : 由 云 服务 器 执行 的 检索 算法 。 输 入 索引 工 和 陷 门 T。 ,输出 加 密 文档 标识 符 集 IDC, 。 

CD 根据 陷 门 T, MARR: 对 于 1mm 8j€[l.n].Xr T[rt;] # LMWH idc; ASEE E 
询 关 键 词 的 加 密 标 识 符 集 IDC 中 。 

(2) 根据 IDC 遍历 得 分 表 A: 对 于 iaci,EIDC, 若 ALidci,,] 1 9T VS; = S,<;<,CS;,;. 

(3) 输出 前 & 个 最 相关 的 包含 查询 关键 词 的 加 密 标识 符 集 IDC, = Ga GD;0 1j Sk}. 

Decrypt(K ID): 由 用 户 执 行 的 解密 算法 。 输 入 密 钥 K 和 加 密 文 档 标 识 符 集 IDC, ,输出 相关 文档 
Æ Duo 

CD 云 服 务 器 根据 IDC, 返回 包含 查询 关键 词 的 加 密 文档 集 Cu 。 

(2) 对 于 每 个 文档 D; j € L141, APH uc; =PUF, (idg(CD;)) 和 rc; =FE,. Rep(uc; »adc;) . 

(3) 计算 D,; = Dec(rce;,C,4),j ELLAR]. 

(4) 输出 前 个 最 相关 文档 集 D, = (Dui Duo Du. 


6315 ( 续 ) 


在 MRSS-ML 方案 中 ,文档 集 DD 与 加 密 索 引 工 相关 联 。 加 密 索 引 工 由 两 个 表格 构成 ， 
分 别 是 查找 表 T 和 相似 性 得 分 表 A. ERK D 创建 过 程 如 下 : 创建 之 前 , 先 提 取出 包含 各 
干 虚拟 关键 词 的 关键 词 词典 W 并 对 每 一 个 关键 词 we, EW 构造 链表 D (w, )。 首 先 ,对 于 
j €[1.n fl w; € Wit v = XIDGw;)l.u = maxC(D; D für n .wx 其 中 | 也)| 表 示 从 文 
iD, 提取 出 的 关键 词 个 数 。 对 于 w; EW 和 jE[1,n], 利 用 一 个 物理 不 可 克隆 函数 PUF, 
随机 化 关键 词 w;。 随 后 ,利用 模糊 提取 带 生 成 算法 FE, Gen 生成 两 组 数据 。 一 组 数据 
rti,; 作为 随机 化 后 的 查找 表 工 中 各 元 素 地 址 密 钥 ,为 一 组 数据 adi;,; 是 辅助 数据 。 对 于 
i€EL1,mj 和 jE1L1,nj ,辅助 数据 adti; 存储 在 一 个 辅助 数据 表 T' 中 ,TT' 存 储 于 数据 拥有 者 
的 非 易 失 性 内 存 中 。 设 2 表示 从 文档 集 D 提取 得 到 的 所 有 关键 词 集合 , 则 10 | 表示 从 文档 
集 D 提取 到 的 所 有 关键 词 个 数 。 对 于 i€[m 十 1,1Q|1] 和 jE[1,n], 随 机 生成 的 辅助 数据 
P adrt;,; 被 插入 到 表 工 中 。 在 陷 门生 成 过 程 中 ,辅助 数据 adti; 用 于 恢复 密 钥 ri;,; PERI 
HAHA n] sc BE eR BX PUF, 来 计算 包含 关键 词 w; 文档 标识 符 的 随机 串 us;,; 。 随 后 利 
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用 以 wus;,; 为 密 钥 的 对 称 加 密 机 制 ( 如 AES) 加 蜜 文档 标识 符 。 将 包含 关键 词 w; 的 加 密 标 
识 符 插 入 到 了 中 随机 地 址 的 对 应 位 置 中 ,T 中 其 余 位 置 插入 随机 串 。 

相似 性 得 分 表 A 创建 过 程 如 下 : 利用 TF-IDF 方法 计算 文档 也, 与 关键 词 w; 之 间 的 相 
似 性 得 分 。 相 似 性 得 分 利用 定义 的 保 序 函 数 进行 加 密 。 相 似 性 得 分 总 和 作为 排序 查询 结果 
的 相关 性 判断 标准 。 得 分 表 A 地 址 由 加 密 文 档 标识 符 进行 随机 化 ,加 密 相 似 性 得 分 插入 到 
对 应 得 分 表 A 的 相应 位 置 中 。 再 利用 一 个 物理 不 可 克隆 函数 PUF, 生成 文档 D; 标识 符 的 
随机 串 。 调 用 模糊 提取 器 生成 算法 FE,. Gen 生成 两 组 数据 ,一 组 数据 rc 作为 加 密 文 档 
D; 的 密 钥 , 男 一 组 数据 adei; 作为 恢复 密 钥 rc;,; 的 辅助 数据 。 

数据 拥有 者 将 加 密 索 引 工 和 加 密 文 档 集 C 存储 到 云 服务 器 上 。 当 用 户 被 授权 检索 包 
含 关 键 词 w Gv; € Q.Q 是 查询 关键 词 集 ) 的 文档 时 ,数据 拥有 者 调用 函数 PUF, 和 模糊 提 
取 器 重 现 算法 FE, Rep 计算 陷 门 加 密 密 钥 。 云 服务 器 收 到 陷 门 后 立即 遍历 查找 表 ,得 到 
候选 文档 标识 符 集 DC., BHA. zs RC A Ai i UI £3 Ot A 并 计算 加 密 得 分 总 和 。 最 后 ,数据 
HA AIH RKR PUE, 和 模糊 提取 器 重 现 算法 FE,. Rep 恢复 用 于 解密 前 & 个 最 相关 的 密 
文 文档 的 密 钥 。 

MRSS-ML 方案 实现 了 一 种 安全 的 多 关键 词 排 序 密 文 检索 方案 ,不 仅 实 现 了 高 效 的 多 
关键 词 排 序 检索 ,而 且 增 强 了 多 关键 词 排序 检索 的 安全 性 。 


6.4 未 来 发 展 方 问 


密 文 云 存 储 信息 检索 目 云 存储 服务 兴起 以 来 ,取得 了 大 量 的 研究 成 果 。 和 总 结 已 有 的 这 
些 方案 , 密 文 云 存储 信息 检索 的 未 来 发 展 方 问 包括 以 下 几 个 方面 。 

1. 多 媒体 密 文 检索 与 隐私 权 保 护 

随 看 互联 网 、 图 像 处 理 、 云 计算 与 云 存 储 一 系列 技术 的 发 展 ,多 媒体 信息 以 爆炸 式 速度 
增长 ,特别 是 以 视频 与 图 像 为 代表 的 多 媒体 信息 ,其 增长 速度 更 是 惊人 。 而 且 图 像 与 视频 信 
息 中 包含 大 量 的 敏感 信息 ,一旦 上 传 到 互联 网 上 ,很 难保 证 数据 的 彻底 删除 。 

为 了 保护 隐私 ,在 将 这 类 数据 上 传 到 云 存 储 服 务 带 之 前 ,应 该 将 数据 加 密 , 这 样 就 算 非 
法 用 户 取 得 数据 ,没有 密 钥 也 无 法 得 到 实际 图 像 信息 。 但 是 数据 加 密 后 ,如 何在 海量 的 图 像 
密 文 数据 中 查询 需要 的 图 像 ,成 为 一 个 很 棘手 的 问题 。 目 前 关于 文本 文件 的 密 文 检索 方案 
非常 多 ,但 关于 多 媒体 密 文 数据 检索 的 方案 还 比较 缺乏 ,特别 是 视频 数据 的 加 密 与 检索 方案 

男 外 , 随 着 公共 社交 平台 的 高 速 发 展 ,图 像 数 据 的 隐私 保护 问题 日 益 突 出 。 类 似 微 信 朋 
友 圈 这 样 的 私密 社交 平台 其 实 是 少数 , 像 Facebook, Twitter, Instagram 以 及 国内 的 微 博 等 
社交 平台 除非 用 户 日 主 设置 ,否则 都 默认 向 所 有 人 公开 信息 ,包括 用 户 上 传 的 各 种 图 像 数 
据 。 本 来 社交 平台 就 是 因为 开放 的 特性 ,受到 广大 网 友 的 喜爱 ,一旦 将 所 有 的 内 容 设置 成 只 
有 双 问 关注 才能 看 到 ,就 限制 了 社交 平台 上 一 些 需 要 广播 的 应 用 。 因 此 , 像 公 共 社 交 平 台 这 
类 应 用 ,其 隐私 保护 技术 ,可 能 更 多 地 需要 通过 管理 手段 来 实现 ,比如 关于 图 像 隐 私 权 的 立 
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Du. 

2. 特殊 应 用 场景 中 的 密 文 信息 检索 

密 文 信息 检索 从 早期 的 非 共 享 模型 ,发展 到 共享 模型 ,从 一 对 多 发 展 到 多 对 多 , 便 是 特 
殊 应 用 场景 发 展 的 需要 。 

目前 ,在 电子 健康 医疗 领域 , 密 文 信息 检索 就 有 特殊 的 需求 。 因 为 电子 健康 医疗 记录 ， 
包含 着 很 多 非常 敏感 的 信息 。 这 些 记 录 同 时 对 很 多 医院 和 研究 机 构 ,甚至 包括 保险 公司 ,都 
有 着 非常 重要 的 价值 。 怎 样 保护 这 些 敏感 信息 ,同时 也 对 其 他 用 户 产生 价值 ,是 一 个 有 着 重 
大 意义 的 研究 课题 。 

在 财政 数据 审计 领域 ,怎样 利用 企业 的 财务 信息 得 到 有 价值 的 供需 关系 ,同时 不 泄露 企 
业 的 一 些 商 业 机 密 , 也 是 一 项 很 有 意义 的 研究 内 容 。 

3. 安全 灵活、 高 效 的 密 文 信息 检索 

安全 性 与 效率 总 是 一 对 巴 盾 ,高 安全 必须 带 来 高 开销 ,怎样 平衡 安全 性 与 效率 需要 极 大 
的 智慧 。 同 时 ,方便 灵活 的 搜索 语句 不 仅 能 够 让 用 户 可 以 更 加 精确 地 定位 到 所 需要 的 数据 ， 
同时 也 可 以 让 用 户 更 加 灵活 地 表述 搜索 需求 。 密 文 搜索 技术 从 早期 的 支持 单 关 键 词 检索 ， 
发 展 到 支持 多 关键 词 ,支持 数据 更 新 , 文 持 结果 验证 等 。 如 何在 支持 丰富 、 灵 活 的 搜索 功能 
的 同时 ,找到 合适 的 安全 性 假设 ,来 证 明 其 安全 性 ,同时 又 实现 高 效率 的 搜索 ,是 一 个 长 期 的 
研究 课题 。 


6.5 xia 


本 草 从 密 文 搜索 技术 分 类 和 应 用 模型 讲 起 ,介绍 了 密 文 搜索 的 发 展 历 程 以 及 未 来 发 展 
趋势 ; 然后 详细 介绍 了 云 存 储 环境 下 的 密 文 搜索 的 需求 和 最 新 的 密 文 搜索 方案 ,从 中 了 解 
到 最 新 的 密 文 搜索 技术 都 是 别出心裁 地 找到 最 新 的 安全 技术 ,应 用 到 云 存储 密 文 搜索 方案 
中 ; 最 后 总 结 了 密 文 搜索 技术 的 未 来 发 展 方向 。 
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云 存 储 服 务 的 数据 完整 性 审计 


引用 美国 前 总 统 罗 纳 德 。 里 根 的 一 名 名 言 ,“ 要 我 相信 你 ,请 你 先 证 明 给 我 看 (Trust 
but verify)”. 

云 存 储 具 有 众多 优点 ,但 是 因为 用 户 对 其 安全 性 、 可 靠 性 及 可 用 性 等 问题 有 所 怀疑 ,号 
致 目前 云 存储 无 法 得 到 广泛 的 应 用 。 特 别 地 ,在 微软 弄 丢 了 Sidekick 用 户 的 数据 ， 
SwissDisk 的 文件 管理 器 出 现 前 溃 故 障 ,Amazon S3 宕 机 频繁 ,曾经 一 次 持续 了 8 个 小 
Hf eee eee 哪个 用 户 还 敢 将 数据 托付 给 云 存 储 服务 呢 ? 即便 是 一 些 业 界 著 名 的 品牌 服务 商 ,也 
没有 担保 其 云 存 储 服务 的 安全 性 与 可 靠 性。 

所 以 在 云 存 储 中 ,让 用 户 可 以 对 云 存 储 服务 的 数据 完整 性 进行 审计 ,验证 服务 提供 者 正 
确 地 持 有 其 数据 , 且 如 果 检 测 发 生 错 误 可 以 恢复 其 数据 ,是 一 件 很 有 意义 的 研究 工作 。 


7.1 数据 完整 性 审计 概述 


Google 每 月 有 超过 400PB 的 数据 存储 到 其 分 布 式 文件 系统 (Google File System, 
— ,FaceBook 每 天 有 超过 500 TB 数据 存储 到 Amazon 的 云 存储 服务 器 上 "站 。EMC 
公司 指出 ,64% 的 受 调 查 企 业 在 过 去 12 个 月 中 经 历 过 数据 丢失 或 宕 机 事故 。 如 何 保障 云 存 
储 服 务 器 上 的 这 些 数据 的 完整 性 与 可 用 性 是 至 关 重 要 的 。 
云 存 储 服 务 中 数据 完整 性 审计 的 任务 是 验证 不 可 信 的 存储 服务 需 是 否 正 确 地 持 有 ( 保 
存 ) 数 据 ,避免 存储 服务 提供 者 删除 、 复 改 数据 ,并 确保 存储 数据 的 可 恢复 性 。 本 节 首 先 分 析 
在 云 存 储 服务 环境 下 存在 数据 完整 性 与 可 用 性 问题 的 起 源 , 然 后 介绍 当前 的 完整 性 审计 方 
案 的 分 类 ,以 及 云 存 储 环境 下 数据 完整 性 审计 的 目标 。 


7.1.1 问题 的 起 源 


如 上 文 所 述 ,用 户 将 数据 存储 到 云 服 务 套 后 ,失去 了 对 数据 的 绝对 控制 权 。 因 为 云 服 务 
全 不 完全 可 信和 ,导致 用 户 数据 的 可 用 性 和 安全 性 受到 威胁 。 男 外 , 当 采 用 云 存储 后 ,用 户 将 
数据 上 传 到 云 服 务 副 ,而 没有 在 本 地 保存 任何 数据 副本 ,其 数据 的 完整 性 与 可 用 性 对 用 户 至 
关 重 要 。 因 此 , 才 存 在 云 存 储 环境 下 数据 完整 性 审计 的 问题 。 综 合 起 来 ,主要 源 目 以 下 几 方 
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面 的 原因 。 

CD 天 灾 人 祸 等 因素 ,如 发 生地 震 、 洪 水 .火灾 与 其 他 事故 等 造成 的 云 存 储 服务 中 心 发 
生物 理 损坏 ,此 类 数据 损坏 是 不 可 恢复 的 。 因 此 , 云 存储 服务 器 的 选 址 及 对 应 的 灾害 防备 措 
施 极其 重要 。 

(2) 计算 机 系统 不 能 实现 100% 的 可 靠 性 ,会 存在 硬件 损坏 、 软 件 失 效 、 系 统 漏洞 操作 
失误 等 系统 或 人 为 问题 ,还 有 比特 衰减 (Bit Rot) .磁盘 控制 器 错误 ,磁带 失效 、 重 复数 据 删 
除 中 的 元 数据 错误 ,以 及 由 软件 故障 导致 的 元 数据 错误 等 情况 都 可 能 发 生 在 云 存储 系统 中 ， 
从 而 造成 对 用 户 数据 完整 性 的 破坏 。 

(3) 软件 病毒 与 网 络 攻 击 等 外 在 恶意 入侵 ,比如 存储 在 云 中 的 数据 可 能 遭 到 其 他 用 户 
的 恶意 损坏 。 文 献 [3] 以 Amazon EC2 存储 服务 为 例 , 介 绍 了 恶意 用 户 如 何 对 云 中 同一 箱 
主机 上 的 其 他 虚拟 机 发 起 攻击 ,并 损坏 其 他 用 户 的 数据 。 

(4) 为 了 节约 成 本 , 云 服 务 提供 者 (Cloud Service Provider,CSP) 可 能 并 没有 遵守 服务 
等 级 协议 (Service Level Agreement. SLA) ,而 将 用 户 很 少 访问 的 数据 转移 到 非 在 线 存 储 设 
备 上 ,甚至 将 其 删除 以 节省 存储 开销 ,导致 用 户 不 能 实时 访问 存储 到 云 中 的 数据 或 所 存储 数 
EER., 

(5) 云 服 务 提供 者 可 能 隐瞒 由 于 管理 不 当 或 设备 故障 造成 的 数据 损坏 或 丢失 ,以 维护 
FE AY Fs A ah FE o 

数据 完整 性 审计 机 制 能 及 时 地 发 现存 储 在 云 服 务 器 中 数据 的 损坏 ,从 而 尽早 地 采取 挽 
救 措施 ; 同时 它 能 让 用 户 日 己 检 测 数 据 的 完整 性 ,使 其 比较 放心 地 使 用 云 存 储 服 务 。 因 此 ， 
对 数据 完整 性 进行 审计 是 非常 必要 的 。 


7.1.2 完整 性 审计 方案 分 类 


云 存储 系统 中 完整 性 审计 方案 的 架构 如 图 7-1 所 示 。 用 户 通 过 各 类 轻 量 级 设备 ,如 手 
机 平板 电脑 笔记 本 电脑 或 PC 等 ,将 数据 上 传 到 云 服务 器 上 ,但 对 其 数据 的 完整 性 和 可 用 
性 比较 担心 ,因此 经 稼 去 检测 一 下 "我 的 数据 还 在 吗 ? 是 完整 的 吗 ??。 只 有 当 用 户 得 到 肯定 
的 答复 时 , 才 会 比较 放心 这 些 数 据 。 

根据 完整 性 方案 的 审计 者 (Auditor) 是 数据 拥有 者 还 是 第 三 方 审 计 者 (Third Party 
Auditor. TPA) ,可 分 为 数据 拥有 者 直接 对 云端 个 人 数据 进行 完整 性 检查 方案 人 ”和 委托 给 
可 信 第 三 方 进行 云端 数据 的 完整 性 检查 方案 ,要 求 数 据 不 会 泄露 给 第 三 方 (各 种 隐私 保 
Jd ROUUS, anf 7-1 所 示 就 是 一 种 用 户 直接 与 云 存 储 服务 器 交互 ,得 到 数据 完整 性 审计 
结果 。 

在 两 方 审 计 系 统 模型 中 ,因为 用 户 的 设备 资源 受 限 ,可 能 在 某 些 应 用 场景 存在 稳定 性 和 
效率 的 问题 ,因此 引入 可 信 第 三 方 的 审计 架构 ,如 图 7-2 所 示 。 第 三 方 拥有 用 户 所 没有 的 审 
计 经 验 和 能 力 , 可 以 代替 用 户 对 云 中 存储 的 数据 进行 审计 ,减轻 用 户 在 验证 阶段 的 计算 负 
担 。 将 数据 持 有 性 验证 工作 委派 给 一 个 可 信 第 三 方 的 优点 在 于 : 发 生 纠 纷 时 ,比如 服务 提 
供 者 认为 存放 了 数据 ,但 是 可 能 是 放 在 次 级 存储 需 或 者 离线 存放 ,而 使 用 者 要 求 提供 的 是 在 
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归档 数据 
备份 数据 
其 他 数据 流 挑战 应 答 


7-1 云 存 储 系统 中 完整 性 审计 方案 的 架构 


线 访问 , 且 认 为 性 能 没有 达到 声称 的 要 求 ,都 可 以 由 第 三 方 进 行 仲裁 。 可 信 第 三 方 只 需要 掌 
握 少 量 的 公开 信息 即 可 代 蔡 用 户 进行 数据 完整 性 检测 ,还 能 对 用 户 和 云端 的 行为 进行 记录 
和 监督 ,帮助 两 方 处 理 数 据 纠 纷 问题 ,减轻 用 户 在 数据 验证 方面 的 负担 。 


7-2 云 存 储 系统 中 第 三 方 完整 性 审计 架构 
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在 第 三 方 完整 性 审计 方案 中 ,用 户 将 自己 的 数据 存储 在 云 服务 提供 商 的 服务 器 上 ,本 地 
不 再 保存 原 有 数据 ,而 只 保存 进行 数据 完整 性 检测 所 必需 的 元 数据 信息 。 当 用 户 上 传 的 数 
据 通 过 了 云 服务 提供 商 的 合法 性 和 有 效 性 审核 后 ,被 存储 在 云 服 务 提 供 商 的 云 服 务 顺 中 。 
当 用 户 需 要 进行 数据 完整 性 检测 时 , 则 向 可 信 第 三 方 发 送 验证 请 求 。 可 信 第 三 方 根 据 用 户 
的 情况 , 回 云 存储 服务 需 发 起 挑战 应 答 协 议 (Challenge Response Protocol,CRP) , 云 服 务 需 
根据 挑战 请 求 计算 结果 并 回复 相应 的 数据 完整 存储 证 明 。 最 后 可 信 第 三 方 根 据 云 服务 器 回 
复 的 数据 完整 证 明 计算 最 终结 果 、 验 证 数据 完整 性 并 将 检测 结果 通过 报告 的 形式 发 送 给 
HPF. 

使 用 第 三 方 审计 时 要 求 提供 隐私 保护 技术 "“ ,就 是 要 求 不 向 第 三 方 泄露 数据 。 隐 私 
保护 实现 方法 如 下 : 

(1) 先 将 数据 加 密 后 再 计算 相关 验证 信息 ,验证 的 时 候 使 用 的 是 加 密 的 数据 ,因此 不 会 

(2) 因为 使 用 抽样 检查 ,所 以 啊 应 的 是 不 连续 数据 ,也 不 返回 原始 数据 ,而 是 对 原始 数 
据 计 算 验 证 信息 。 

(3) 使 用 常用 的 隐私 保护 方法 ,在 数据 中 穿插 一 些 随机 数据 。 这 种 方法 会 增加 额外 的 
开销 。 

云 存储 服务 中 数据 完整 性 审计 方案 根据 是 否 对 数据 文件 进行 了 容错 预 处 理 可 以 分 为 可 
WE BA Ae te He A (Provable Data Possession. PDP) 方案 和 可 恢复 证 明 (Proof Of 
Retrievability,POR ) 方 案 。PDP 和 POR 方案 的 主要 区 别 是 : PDP 方案 可 检测 到 存储 数据 
是 否 完整 ,但 无 法 确保 数据 可 恢复 性 ; POR 方案 进行 了 容错 预 处 理 , 所 以 可 以 保证 存储 数 
据 的 可 恢复 性 。 

根据 方案 采用 的 核心 技术 , 现 有 的 可 证 明 数 据 持 有 PDP 方案 包括 基于 消息 认证 码 
(Message Authentication Code, MAC) W PDP JRH“ JEF RSA 签名 的 PDP FROT? 
基于 Boneh-Lynn-Shacham (BLS) 签 名 的 PDP Jy 3E 190225109351. 基于 聚合 签名 的 PDP Jj 
4c 0391 基于 Merkle Hash Tree (MH T) 的 PDP 7; “l 、 基 于 Dynamic Hash Table 
(DHT) Ay PDP 方案 中 等 ; 可 恢复 证 明 POR 方案 包括 基于 哨兵 的 POR 方案、 紧缩 的 POR 
方案 、 基 于 编码 的 POR 方案 等 。 

根据 方案 的 功能 ,PDP 方案 和 POR 方案 可 以 分 为 支持 动态 更 新 的 “支持 多 副本 
fg 0927251 支持 隐私 保护 的 中 支持 多 用 户 批量 验证 0 支持 数据 共享 的 "全 多 e 
持 公 开 验 证 等 方案 。 关 于 完整 性 审计 方案 分 类 如 图 7-3 Bro. 

文 持 动态 更 新 的 方案 允许 用 户 对 存储 之 后 的 数据 块 进 行 插入 、 修 改 和 删除 操作 ; 支持 
公开 验证 的 方案 允许 任何 具有 公 钥 的 第 三 方 充 当 审 计 者 ,帮助 数据 拥有 者 完成 对 数据 完整 
性 的 验证 ; 支持 隐私 保护 的 方案 使 第 三 方 审计 者 和 云 服务 器 不 会 获取 任何 关于 用 户 和 号 份 的 
信息 ; 文 持 多 副本 的 方案 采用 分 布 式 存储 的 方式 将 数据 副本 存储 到 不 同 的 云 服 务 大 ,避免 
单个 服务 硕 故 障 造成 数据 的 丢失 。 
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基于 聚合 签名 的 PDP 方 案 
基于 BLS 签 名 的 PDP 方 案 
可 证 明 数 据 基于 MAC 认 证 码 的 PDP 方 案 
Dh 基于 MHT 的 PDP 方 案 
基于 DHT 的 PDP 方 案 
基于 RSA 签 名 的 PDP 方 案 等 


DE 基于 哨兵 的 POR 方 案 
可 恢复 证 明 " 
方案 POR zi AH POR Jj 5 
数据 完整 性 基于 编码 的 POR 方 案 等 
功能 属性 


审计 方案 支持 动态 更 新 
支持 多 副本 
支持 隐私 保护 
支持 多 用 户 批量 验证 


文 持 公开 验证 


7-3 完整 性 审计 方案 分 类 


7.1.3 完整 性 审计 目标 


云 存 储 服务 中 数据 完整 性 审计 的 任务 是 验证 不 可 信 的 存储 服务 器 是 否 正确 地 持 有 ( 保 
存 ) 数 据 ,避免 存储 服务 提供 者 删除 、 算 改 数据 ,并 确保 存储 数据 的 可 恢复 性 。 相 应 地 ,数据 
完整 性 审计 方案 的 目标 如 下 。 

(1) 如 果 存 储 在 云 服 务 器 上 的 数据 没有 被 损坏 或 者 算 改 , 即 数据 是 完整 无 误 且 可 用 的 ， 
则 云 服务 器 可 以 通过 挑战 应 答 协 议 , 通 过 审计 者 的 检测 。 

(2) 如 果 存 储 在 云 服 务 器 上 的 数据 发 生 损 坏 或 者 被 攻击 者 算 改 , 则 云 服务 器 不 能 通过 
挑战 应 答 协 议 ,审计 者 将 通知 用 户 其 数据 被 破坏 。 

(3) 保证 用 户 在 其 数据 生命 周期 内 ,可 以 随时 随地 并 执行 任意 次 数 的 挑战 应 答 协 议 。 

另外 ,在 云 存 储 环 境 下 ,将 海量 的 数据 下 载 到 本 地 进行 完整 性 审计 的 方法 根本 不 实用 ， 
因此 实现 无 须 读 取 数据 的 审计 是 云 存储 中 数据 完整 性 审计 方案 的 基本 要 求 “]。 

通常 ,考核 数据 完整 性 审计 方案 优 劣 的 指标 有 下 面 几 个 。 

OD 计算 复杂 度 ,包括 用 户 预 处 理 文件 .服务 器 生成 证 据 及 用 户 验 证 等 开销 。 

(2) 通信 复杂 性 , 指 用 户 与 服务 器 之 间 的 数据 传输 量 。 

(3) 存储 需求 , 指 用 户 与 服务 器 需要 的 额外 的 存储 空间 。 

(4) 允许 的 数据 更 新 ,包括 数据 修改 、 插 入 、 添 加、 删除 ; 如 果 不 支持 更 新 ,就 只 能 用 于 
静态 数据 ,一旦 存储 就 不 再 改变 ,比如 归档 存储 。 

(5) 允许 验证 的 次 数 , 是 否 文 持 公开 验证 。 

(6) 检测 到 错误 后 是 否 可 恢复 ,比如 是 否 使 用 纠 删 码 / 纠 错 码 等 。 
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(7) 因为 基于 抽样 原理 ,挑战 应 答 协 议 的 错误 识别 率 要 足够 高 。 要 求 每 次 抽样 的 数据 
块 数 要 足够 多 ,以 达到 需要 的 错误 识别 率 。 

(8) 安全 性 证 明 ,确保 方案 的 安全 性 。 

(9) 是 否 需要 访问 数据 块 以 及 需要 访问 多 少数 据 块 等 。 

在 挑战 应 答 协议 中 ,错误 识别 率 与 抽样 数据 块 数量 密切 相关 。 要 实现 不 同 的 错误 识别 
率 , 需 要 的 抽样 块 数 不 同 。 假 设 数据 块 总 数 为 n ,抽样 的 块 数 为 c ,用 rv 表示 被 破坏 的 文件 块 
数 ,X 表示 抽样 的 块 中 检测 到 的 被 破坏 的 块 数 ,Py 表示 至 少 有 一 个 被 破坏 的 块 被 检测 到 的 


概率 , 则 

— | 二 = — _n—r n—l-r n—2—r  n—ctl-r 
ecc mae Or MS n n—1 n —2 n—c+1 
因 为 


n—i-r- n-—i-l-r 
n—i ^ n-—i-—1l 
所 以 
n—=r\" n—t-T1i-—ri' 
| 

服务 器 检测 到 错误 的 概率 与 抽样 块 数 的 关系 如 图 7-4 所 示 , 如 果 错 误 率 r/n =1%.H 
户 只 需要 抽样 460 个 数据 块 就 可 以 达到 99% 的 错误 识别 率 , 只 需要 抽样 300 个 数据 块 就 可 
以 达到 95% 的 错误 识别 率 。 


一 资 一 r=0.00S7m 


—i—r-0.01n 
wi r70.02n 
—— r=0.03n 


0 100 200 300 400 500 600 
挑战 块 数 c 
图 7-4 服务 器 检测 到 错误 的 概率 与 抽样 块 数 的 关系 
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7.2 云 存储 中 数据 完整 性 审计 发 展现 状 


根据 上 小 节 对 云 存 储 服务 中 的 数据 完整 性 审计 方案 的 分 类 和 目标 ,下 面 将 详细 介绍 数 
据 完整 性 审计 方案 的 发 展现 状 和 趋势 。 前 先 介绍 当前 的 完整 性 审计 方案 的 通用 框架 ; 然后 
在 此 基础 上 ,对 当前 的 研究 成 果 进 行 总 绪 分 析 。 


7.2.1 完整 性 审计 框 淋 


云 存储 服务 中 的 数据 完整 性 审计 方案 主要 包括 4 个 阶段 , 即 初始 化 、 挑 成 、 啊 应 与 验证 。 
通常 包括 以 下 几 个 算法 。 

(1) Setup: 在 初始 化 阶段 ,数据 拥有 者 生成 方案 需要 的 一 些 密 钥 ,该 算法 输入 一 个 安全 
参数 ,输出 相应 的 密 钥 信息 。 

(2) TagGen: 在 初始 化 阶段 ,数据 拥有 者 对 数据 文件 进行 分 块 、 编 码 等 预 处 理 操作 ,该 
算法 输入 数据 分 块 和 保密 密 钥 ,输出 为 每 个 数据 块 生 成 的 验证 标签 集 ,以 利于 后 面 进 行 数 据 
的 完整 性 审计 。 将 数据 文件 和 标签 集 存 储 到 云 服 务 背 上 ,本 地 只 保存 少量 的 密 钥 信息 生成 
标签 集 ,作为 认证 的 元 数据 。 

(3) Challenge: 在 挑战 阶段 ,基于 抽样 机 制 ,从 分 块 案 引 集合 中 随机 选择 c TRG, 
并 且 为 每 个 索引 选取 一 个 随机 数 ,发 送 给 云 服务 天 。 

(4) Response: 在 啊 应 阶段 , 云 服 务 融 收 到 挑战 请 求 后 ,以 公开 密 钥 .数据 文件 .数据 块 
标签 集合 以 及 挑战 请 求 信 息 为 输入 ,输出 对 应 挑战 块 的 完整 性 验证 信息 。 

(5) Verify: 在 验证 阶段 ,审计 者 将 接收 到 的 完整 性 验证 信息 进行 运算 ,输入 为 公开 密 
SH .保密 密 钥 .挑战 信息 以 及 验证 信息 ,输出 为 目标 文件 检测 完整 性 的 结果 。 

当 完 整 性 审计 方案 文 持 数据 动态 更 新 时 ,还 包括 以 下 两 个 更 新 算法 。 

(1) Update: 由 云 服务 副 执 行 ,将 需要 更 新 的 文件 ,相应 的 标签 集 及 数据 请 求 作为 输 
入 ,输出 更 新 文件 和 更 新 标签 集 及 相应 的 更 新 证 据 。 

(2) UpdateVerify: 由 审计 者 执行 ,验证 该 更 新 操作 是 否 正确 执行 。 

数据 完整 性 审计 方案 基本 流程 如 图 7-5 所 示 。 其 中 的 审计 者 可 以 是 数据 拥有 者 ,也 可 


HP ZARI da 审计 者 
原始 文件 
初始 化 挑战 
标签 生成 
处 理 后 文件 


挑战 请 求 
挑战 数据 


Me Rv ALAS 


赁 证 数据 | — — —o at 


验证 结果 
7-5 数据 完整 性 审计 方案 基本 流程 
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以 是 可 信任 的 第 三 方 。 数 据 完整 性 审计 方案 的 主要 思想 是 : 将 上 传 的 文件 分 成 右 干 个 数据 
TR ,并 对 每 个 数据 块 计算 一 个 验证 标签 。 在 不 需要 下 载 整个 文件 的 情况 下 ,利用 同 态 标签 、 
MAC 签名 和 聚合 签名 等 各 种 技术 使 审计 者 可 以 验证 云 服务 硕 上 用 户 数 据 的 完整 性 。 


7.2.2. 云 存储 环境 下 的 需求 


云 存 储 环境 下 数据 完整 性 审计 方案 主要 是 采用 在 数据 预 处 理 阶 段 生 成 的 审计 元 数据 信 
县 与 云 服 务 器 返回 的 啊 应 攒 证 进行 对 比 , 以 确定 服务 融 端 数据 的 完整 性 。 不 同 的 实现 机 制 
在 计算 复杂 度 .通信 开销 和 存储 量 方面 的 开销 均 有 不 同 。 

相 比 于 传统 分 布 式 网 络 如 PZP 网 络 、 网 格 计算 等 , 云 存 储 环境 下 数据 完整 性 审计 方案 
具有 以 下 几 方 面 的 需求 。 

D 因为 云 存储 环境 下 海量 的 数据 ,所 以 数据 完整 性 审计 方案 不 能 要 求 用 户 从 云 服务 
大 读 取 数据 后 再 进行 审查 ,而 应 该 只 需要 用 户 保存 少量 的 元 数据 信息 甚至 不 需要 保存 任何 
信息 ,就 可 以 对 云 服 务 需 问 的 数据 完整 性 进行 检测 。 

(2) 传统 的 数据 完整 性 验证 机 制 为 每 一 个 数据 块 生成 不 可 伪造 的 数据 签名 标签 集合 ， 
当 数 据 进行 更 新 时 需要 重新 生成 签名 标签 ,使 得 计算 代价 和 通信 开销 较 大 ,所 以 需要 设计 更 
轻便 、 高 效 的 动态 更 新 方案 。 

(3) 在 云 存储 环境 下 ,为 了 方便 用 户 在 轻 量 级 的 设备 上 访问 数据 ,数据 的 完整 性 审计 和 需 
要 一 个 可 信 第 三 方 可 以 托管 ,以 减少 用 户 端 的 开销 。 

(4) 无 论 使 用 哪 种 审计 方案 ,用 户 数据 及 其 身份 的 隐私 性 都 应 该 得 到 保护 。 

(5) 在 不 同 的 云 存储 环境 下 ,一 方面 要 提高 完整 性 审计 方案 的 效率 , 另 一 方面 其 功能 性 
及 扩展 性 也 要 考虑 。 

男 外 ,数据 的 备份 需求 ,比如 使 用 多 副本 的 方式 存放 多 份 数据 ,也 可 以 验证 服务 硕 对 多 
份 复 本 数据 的 完整 性 审计 ; 当 文 件 的 数据 块 案 引 与 分 块 在 数据 块 集合 中 的 位 置 无 关 时 , 比 
较 容易 实现 数据 的 动态 更 新 操作 ; 采用 加 密 算 法 对 数据 进行 加 密 , 可 以 实现 文 持 隐私 保护 
的 数据 完整 性 检测 ; 采用 纠 错 或 纠 删 编码 对 数据 进行 编码 ,再 结合 完整 性 审计 技术 ,可 实现 
可 恢复 证 明 POR 方案 。 下 面 将 对 现 有 的 数据 完整 性 审计 方案 是 否 满足 以 上 需求 进行 
分 析 。 


7.2.3 发 展现 状 与 趋势 


本 小 节 根 据 以 上 分 类 ,评价 指标 和 和 需求 详细 介绍 PDP 方案 和 POR 方案 及 其 相关 工作 
在 国内 外 的 研究 现状 ,并 将 相关 工作 进行 对 比分 析 , 指 出 发 展 趋势 。 

1. PDP 方案 

Deswarte 等 "5 最早 提 出 远程 数据 的 完整 性 检查 ,使 用 基于 RSA 的 Hash 函数 对 整个 
文件 计算 Hash 值 。 其 原理 为 : S N H RSA 模 数 ,F 为 代表 文件 的 大 整数 ,g € Zw ,检查 者 
RAF a=g" mod N; 在 挑战 中 ,检查 者 生成 任意 元 素 r 并 发 送 g” 到 服务 器 ,服务 器 返回 
s—(g')* mod N ,检查 者 计算 a”, 并 验证 等 式 s = a’ mod N 是 否 成 立 。 因 为 该 方法 基于 
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公 钥 密码 技术 ,计算 开销 很 大 ; 特别 当 存 储 文件 大 的 时 候 , 该 方案 的 计算 开销 更 大 。 文 献 
[46 的 原理 与 此 相同 ,但 其 目的 是 阻止 数据 传输 中 的 欺骗 。 文 献 L47j 利 用 基于 RSA 的 
Hash 函数 的 同 态 性 ,可 以 在 初始 化 时 间 开 销 与 用 户 的 存储 开销 间 进 行 权衡 。 该 方案 也 是 
基于 RSA ,用 户 和 存储 服务 器 都 有 模 指 运算 ,计算 开销 太 大 。 

EAB ¢ HSK Johns Hopkins University) H Ateniese 等 人 在 这 方面 做 了 
一 些 研究 工作 ,他们 在 文献 L8] 中 第 一 次 正式 定义 了 PDP 方案 。 文 中 提出 的 两 个 PDP 方案 
都 是 使 用 同 态 可 验证 标签 (Homomorphic Verifiable Tags) ,用 户 为 每 个 数据 块 生 成 一 个 
Tag, 将 此 Tag 连同 数据 存放 在 服务 需 上 。 验 证 时 ,用 户 随 机 选择 一 些 块 向 服务 需 发 出 挑 
战 , 要 求 服务 器 返回 持 有 这 些 块 的 证 据 。 服 务 器 利用 请 求 块 及 相应 的 标签 生成 持 有 证 据 。 
因为 同 态 性 ,多 个 文件 块 的 标签 可 以 聚合 成 一 个 值 ,因此 极 大 地 节省 了 响应 带宽 。 用 户 通 过 
验证 啊 应 信息 确认 数据 拥有 ,而 不 需要 检索 数据 。 提 出 的 方案 只 需要 用 户 维 护 常 量 的 元 数 
据 信 息 ,服务 器 的 开销 也 近似 为 一 个 常量 ,挑战 应 答 只 需 1Kb 左右 。 实 验 表 明 ,方案 的 性 能 
受 限 于 磁盘 I/O 而 不 是 密码 计算 。 文 中 作者 第 一 次 提出 公开 验证 的 方法 。 但 是 该 方案 在 
生成 证 据 时 使 用 基于 RSA 的 模 指 运算 ,也 没有 考虑 数据 更 新 间 题 。 并 且 该 方案 的 多 个 服务 
au nf LA dH: iE (Collusion Attacks) ,所 以 不 适用 于 多 副本 协议 。 

自从 Ateniese 等 提出 同 态 可 验证 标签 ,研究 者 们 提出 了 很 多 基于 同 态 标签 的 PDP 方案 。 
根据 采用 的 签名 算法 ,主要 可 分 为 基于 RSA 的 PDP :2 与 基于 BLS 的 PDP 2212633) | 

基于 RSA 的 POP 方案 主要 是 利用 了 RSA 算法 的 同 态 特性 ,具体 构造 方案 如 下 。 在 预 
处 理 阶段 ,用 户 生 成 密 钥 对 PK — ON og pk), SK — GkO. HP N 为 两 个 大 素数 p,g 的 
RSA 模 数 ,g 为 模 N 二 次 剩余 集 的 生成 元 ,随机 数 pk ,sk 满足 pk © sk=1mod(p—1)(q- 
1); 而 后 将 文件 下 分 块 , 即 下 =={m;10 二 I 二 n), 并 为 每 个 数据 块 生成 RSA 签名 作为 其 对 应 
标签 , 即 o; — (A Gllvog"0* , Rp ; TOES Bus m in 为 数据 块 数目 ,vw 为 文件 标识 符 ,h 
AJ ds ERAS 最 后 将 文件 下 以 及 数据 块 标签 集 Q 一 同上 传 至 云 服务 器 。 在 挑战 阶段 ,为 了 
节省 通信 开销 ,通常 采用 抽样 审计 的 方式 。 审 计 者 随机 选择 两 个 密 钥 &1,&2, 生 成 挑战 信息 
chall— Cc £1.52. gs) A3& 4B zx RS te HP c 为 抽取 数据 块 数目 ,gs= 王 gs,s 为 随机 值 。 云 
服务 需 收 到 挑战 信息 后 ,首先 计算 a, — f ii) 5b; = f 4; G0 (0i xc) , AP Fiche 均 为 随 
机 数 生成 滑 数 ,生成 的 a; 表示 被 抽样 的 数据 块 序 号 ,b; 是 每 个 数据 块 对 应 的 随机 值 ; 继而 
计算 数据 块 证 据 信 息 M = H (gs? ),D —b,m, T 5m, T T b.m, ,标签 证 据 信 息 T= 
Maot; 最 后 将 审计 证 据 C(M,T) 发 送 至 审计 者 。 审 计 者 收 到 证 据 后 ,首先 计算 t= t/ 
h Gi; | lv)" Coi c0 ,其 中 z=T” BAAR HOS M 是 否 相 等 。 若 两 者 相等 , 则 验证 
通过 ; 反之 则 不 通过 。 

Ateniese 等 在 文献 L8] 中 已 证 明 , 若 数据 块 出 错 概 率 为 1% ,要 达到 99% 的 错误 识别 率 ， 
只 需要 随机 抽取 460 个 数据 块 进行 抽样 验证 即 可 ; 要 达到 95% 的 错误 识别 率 ,只 需要 随机 
抽取 300 个 数据 块 进行 抽样 验证 即 可 。 

从 基于 RSA 的 PDP 方案 的 构造 过 程 可 知 ,该 方案 利用 同 态 签名 的 可 聚合 特性 ,将 云 服 
务 器 与 审计 者 之 间 的 通信 开销 降低 至 常数 级 。 然 而 ,该 类 方案 需要 为 每 个 数据 块 生 成 与 安 
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全 系数 成 正比 的 标签 信息 ,使 得 云 服务 需 与 用 户 间 通信 开销 以 及 云 服 务 需 对 标签 的 存储 开 
销 较 大 。BLS 是 Boneh 等 人 提出 的 一 种 新 的 签名 技术 “* ,在 同等 安全 强度 下 ,其 签名 长 度 
较 之 RSA 签名 更 短 。 因 而 ,有 研究 者 提出 用 BLS 签名 代替 RSA 签名 ,以 降低 通信 
和 存储 开销 ,并 提高 审计 效率 。 

基于 BLS 签名 的 公开 审计 方案 (BLS-PA) 主 要 利用 了 双 线 性 映射 的 相关 性 质 , 其 一 般 
构造 过 程 描述 “个 如下。 在 预 处 理 阶 段 ,用 户 根 据 乘 法 循环 群 G 生成 密 钥 SK = (sk)， 
PK —(g.u. pk) HP g NG, 的 生成 元 ,sk ,wu€E2 均 为 随机 值 , 且 pk = g*; 继而 为 每 
个 数据 块 生 成 BLS 标签 , 即 ci= (hG| lv) g™")* ,并 将 文件 与 数据 块 标签 集 一 同 存储 至 云 
服务 大。 在 挑战 阶段 ,审计 者 随机 抽取 c 个 数据 块 序号 ai ,为 每 个 序号 选取 一 个 随机 值 5;， 
并 将 它们 作为 挑战 chall={(a;.b;) | 0 一 ;一 c) 发 送 到 云 服 务 器 。 收 到 挑战 后 , 云 服务 器 按 
照 抽样 序列 分 别 聚 合 数据 块 和 标签 , 即 T = IL-;-.05.M = Xoci< bima ,并 将 得 到 的 聚 
合 值 (T,M) 作 为 审计 证 据 发 送 到 审计 者 。 审 计 者 收 到 证 据 后 ,通过 判断 等 式 e(T,pk) = 
e OLz;z h(a;11v)”"u”,g) 是 否 成 立 来 对 数据 完整 性 进行 验证 。 知 等 式 成 立 , 则 验证 通过 ; 
否则 不 通过 。 

另外 ,Ateniese 等 在 文献 [49 | 中 提出 在 随机 预言 模型 (Random Oracle Model) 下 使 用 
任何 具有 同 态 属性 的 鉴定 协议 (ldentification Protocol) 构造 公 钥 同 态 线 性 认证 各 
(Homomorphic Linear Authenticator, HLA) 的 通用 机 制 ,并 表明 怎样 将 任何 公 钥 HLA f 
化 为 公开 可 验证 的 存储 证 明 方 案 (Proofs of Storage. PoS) ,使 通信 复杂 度 与 文件 长 度 无 关 ， 
并 且 文 持 无 限 次 验证 。 但 是 该 方案 也 是 基于 公 钥 密码 技术 ,所 以 计算 开销 比较 大 。 在 文献 
[17] 中 ,他 们 提出 基于 对 称 密码 技术 构造 PDP 方案 。 该 方案 在 初始 化 的 时 候 , 由 用 户 设 定 
要 挑战 的 次 数 和 内 容 , 将 啊 应 作为 元 数据 存放 在 用 户 端 ,因此 更 新 次 数 和 挑战 次 数 都 是 有 限 
的 。 而 且 它 只 支持 append- 类 型 的 插入 ,也 不 支持 公开 验证 。Chen 等 利用 代数 签名 的 同 
态 性 和 高 效 性 提出 一 个 高 效 的 基于 代数 签名 的 数据 持 有 性 方案 。 

在 公开 可 验证 的 完整 性 审计 方案 中 ,由 于 TPA 的 引入 ,如 何 保护 用 户 隐 私 在 审计 过 程 
中 不 被 泄露 成 为 一 个 需要 重点 解决 的 问题 。 虽 然 上 述 基 于 同 态 认证 技术 的 审计 方案 中 ， 
TPA 没有 直接 接触 用 户 数 据 , 但 从 理论 上 讲 TPA 完全 有 可 能 通过 求解 线性 方程 组 的 方式 
从 其 收 到 的 数据 块 聚合 值 中 分 析出 用 户 原 始 数据 的 相关 信息 ,从 而 使 得 用 户 隐私 存在 被 泄 
露 的 风险 。 为 应 对 这 一 挑战 ,Wang 等 一 汪 提 出 将 随机 掩 码 植 人 到 数据 块 聚 合 值 中 以 防止 
TPA 的 逆向 解析 。 具 体 来 说 , 云 服务 器 植 人 随机 掩 码 的 过 程 可 表述 为 : M'=M+rH wu’), 
Hh u 为 事先 协商 好 的 全 局 参量 (Global Parameter), H (2) AMA HAM. Bl Je «zx HR A s 
KM’ ,r)} 作 为 审计 信息 发 送 给 TPA。 随 机 掩 码 的 引入 不 会 影响 数据 完整 性 的 验证 ,但 
TPA 已 无 法 通过 求解 线性 方程 组 的 方式 获知 任何 的 数据 信息 。 此 种 保护 用 户 隐私 的 机 制 
也 在 其 后 的 审计 方案 ”中 得 到 了 广泛 的 应 用 。 

在 公开 审计 中 ,TPA 经 常 同时 收 到 来 日 多 个 用 户 的 审计 请 求 。 奢 TPA 将 任务 进行 排 
队 再 逐一 审计 ,其 效率 显然 是 不 高 的 。 因 此 ,审计 过 程 中 常 采用 批量 审计 的 方式 天 2 , 即 利 
用 同 态 标签 的 可 聚合 特性 ,将 不 同 审计 请 求 产 生 的 审计 证 据 聚 合 后 再 一 次 性 完成 验证 。 在 
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基于 BLS 算法 的 审计 方案 中 ,对 于 存储 在 云端 的 w 个 不 同 用 户 的 w 个 文件 而 言 ,批量 审计 
构造 过 程 可 描述 如 下 。 在 数据 预 处 理 阶 段 ,w 个 用 户 分 别 产 生 他 们 的 密 钥 {SK ,= (sk;)， 
PK; 二 (ui;,gi,pk;)10 二 i 二 w}) 后 ,将 文件 分 块 并 计算 每 个 数据 块 的 BLS 标签 ,随后 用 户 将 
所 有 数据 块 F— m 10 二 i 二 w ,0 二] <n} 为 数据 块 数目 ) 数据 块 对 应 标签 = (6510— 
iw ,0 二 j 二 n) 一 同 存储 于 云 服务 器 。 在 挑战 阶段 ,TPA 同时 收 到 来 自 w 个 用 户 的 审计 
WRK, BD) R={req;|O<i<w} ,并 依照 前 文 所 述 , 生 成 挑战 信息 chall={(a;.6;)|0<i<c}, 
同时 发 送 给 存储 了 w 个 文件 的 云 服务 器 。 云 服务 器 对 所 有 返回 的 数据 块 和 标签 信息 {(o;， 
mij )|0-Ci-w.0-j 二 c) 分 别 计算 标签 证 据 © = cico 《I<;<.o%s; ) 和 数据 块 证 据 M; = 
Eje mu; Oi —w) ,并 将 证 据 信 息 (B,{M;|10 二 i 二 w)})) 发 送 到 TPA, TPA 收 到 证 据 
信息 后 ,判断 等 式 e(®,g) 二 了;<we Mch Gollj)"u V ,pk) 是 否 成 立 ; 若 成 立 则 审计 通 
过 ,反之 不 通过 。 

从 上 述 过 程 不 难看 出 , 较 之 逐一 审计 的 方式 ,批量 审计 有 如 下 优势 : 其 一 ,所 有 标签 信 
息 在 传递 给 TPA 之 前 就 被 聚合 ,有 效 地 减少 了 通信 开销 ; 其 二 ,由 于 审计 证 据 是 聚合 后 再 
一 次 性 验证 ,减少 了 TPA 做 双 线 性 映射 运算 的 次 数 。 简 言 之 ,批量 审计 不 仅 可 有 效 提 高 
TPA 的 审计 效率 ,同时 可 减少 云 服务 器 与 TPA 间 的 通信 开销 。 然 而 ,值得 注意 的 是 ,在 批 
量 审计 中 ,只 有 当 所 有 用 户 数据 均 正 确 且 完整 时 ,打包 ?处 理 的 高 效 性 才能 体现 。 而 一 旦 有 
数据 出 错 , 审 计 将 无 法 通过 ,此 时 定位 出 错 数 据 将 成 为 需要 解决 的 一 个 新 问题 。 当 然 , 最 
直接 的 解决 措施 是 对 各 数据 块 逐一 进行 审计 以 找 出 错误 。 但 该 方式 的 处 理 效率 显然 是 不 高 
的 。 因 此 ,如 何 快速 定位 出 错 数 据 仍 是 有 竺 解决 的 重要 问题 。 

此 外 ,在 云 存 储 应 用 中 ,用 户 通 常会 要 求 采用 多 副本 备份 的 方式 提高 其 数据 的 可 靠 
性 " 站。 不 同 于 前 述 方案 ,多 副本 数据 的 审计 既 需 要 保证 各 副本 的 完整 性 ,还 需 保证 副本 数 
目的 正确 性 。 由 于 所 有 副本 数据 的 内 容 是 一 致 的 ,如 果 用 户 将 其 直接 存储 在 云端 ,不 诚信 的 
云 服 务 器 只 需 持 有 少量 其 至 单个 正确 的 副本 即 可 通过 审计 。 因 此 ,在 数据 初始 化 阶段 , 需 对 
多 副本 数据 进行 差别 化 处 理 。 

Curtmola 等 "通过 改进 基于 RSA 签名 的 审计 方案 第 一 次 提出 多 副本 PDP (Multiple- 
Replica PDP,MR-PDP) 方 案 , 人 允许 用 户 通过 挑战 应 答 协 议 验证 服务 需 存 储 文件 上 个 副本 : 
每 个 副本 是 可 用 的 ,使 用 t 倍 的 存储 空间 存储 数据 的 上 个 副本 。MR-PDP 扩展 了 文献 [18j 
的 单 副 本 的 情况 ,还 可 以 增加 新 的 副本 ,而 不 需要 对 文件 进行 预 处 理 。 该 方案 的 构造 过 程 如 
F: 在 数据 预 处 理 阶段 ,用 户 密 钥 和 数据 块 对 应 标签 的 生成 方式 与 前 述 基 于 RSA 签名 的 审 
计 方 案 相同 。 但 为 实现 多 副本 数据 的 差别 化 ,用 户 先 使 用 私 钥 sk 将 文件 加 密 成 F' = (mm; |O< 
in) ,然后 利用 随机 掩 码 为 之 生成 多 个 不 同 的 副本 数据 块 , 即 FiS {bj 10 二 i 二 w,0 二 j < 
n} +b; =m: +r; KP w 为 副本 数目 ,n 为 数据 块 数目 ,r; 为 随机 数 生 成 函数 和 用 户 私 钥 共 
同 作 用 生成 的 随机 掩 码 。 在 挑战 阶段 ,审计 者 依次 验证 每 一 个 副本 的 完整 性 。 其 挑战 chall 
生成 和 证 据 ( 本 ,M) 生 成 过 程 均 与 上 述 基 于 RSA 签名 的 审计 方案 一 致 。 所 不 同 的 是 ,由 于 
引入 了 随机 掩 码 ,审计 者 收 到 证 据 后 需要 先 对 标签 聚合 值 进行 处 理 : TST * gm ,roa = 
Yu-i<cru ,再 做 验证 。 该 方案 初步 解决 了 多 副本 数据 审计 的 问题 ,但 仍 存 在 如 下 不 足 : 其 
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一 ,审计 阶段 所 要 用 到 的 信息 ra 是 用 户 密 钥 生成 的 掩 码 累加 值 ,因而 审计 工作 不 能 交 由 
除 用 户外 的 其 他 实体 完成 , 即 不 支持 公开 审计 ; 其 二 ,对 于 多 个 副本 文件 需 逐 一 审计 ,其 效 
率 显然 是 不 高 的 。 

随后 ,Barsoum 等 5 提出 了 一 种 基于 BLS 签名 的 多 副本 公开 审计 方案 。 该 方案 通过 
加 密 的 方式 实现 副本 数据 的 差别 化 ,并 采用 类 似 批 量 审计 的 方式 通过 单 次 交互 即 可 验证 多 
副本 数据 的 持 有 性 。 在 数据 预 处 理 阶段 ,用 户 需 要 为 给 定 文件 下 生成 指定 个 数 副 本 {F;|10 一 
i<w } ,其 中 每 个 副本 由 用 户 将 下 与 其 副本 序号 拼接 并 加 密 得 到 , 即 PS = EY (F|1i),i 为 
副本 序列 号 ,sk 为 用 户 私 钥 ,E 为 加 密 算法 。 此 处 私 钥 生成 .标签 生成 等 过 程 与 前 述 BLS- 
PA 相同 。 在 挑战 阶段 ,挑战 信息 将 发 送 到 所 有 存储 有 副本 的 服务 器 ; 云 服务 右 将 所 有 副本 
的 数据 块 与 标签 分 别 聚 合 ,其 过 程 为 : 下 =Io_i<。(Io-i<.cozw )，M; = Xj b;m;, (0 二 
i 二 w), 其 中 m; 表示 第 i 个 副本 的 第 a; 个 数据 块 , 其 他 变量 与 前 述 BLS-PA 一 致 。 云 服 
务 需 最 后 将 (@ {M 0i ww D EA ITED AXIS TPA, TPA 收 到 审计 信息 后 ,通过 判 
it XX e(D.g)—e(C(IL AG | 120" 0" , pk ) 是 否 成 立 对 多 副本 持 有 性 进行 验证 。 若 成 立 
则 审计 通过 ,否则 不 通过 。 与 前 述 MR-PDP 方案 J 相 比 ,该 方案 具有 如 下 优势 : 审计 过 程 
无 需 用 户 参 与 ,从 而 可 支持 公开 审计 ; 审计 过 程 通过 TPA 与 云 服 务 需 的 一 次 交互 即 完成 ， 
相 较 于 MR-PDP 的 逐一 审计 ,有 效 地 降低 了 通信 开销 和 计算 开销 。 然 而 ,该 方案 中 实现 副 
本 区 别 化 的 加 密 方 式 开 销 较 大 ,特别 是 对 于 频繁 更 新 的 动态 数据 ,反复 地 加 密 、 解 密 显 然 不 
是 一 个 理想 的 选择 。 而 且 , 上 述 两 种 方案 均 不 支持 动态 多 副本 数据 的 审计 。 此 外 ,与 批量 审 
计 类 似 , 当 所 有 副本 数据 都 正确 且 完 整 的 , 现 有 方案 所 采用 的 “ 先 聚 合 证 据 青 审计 ”策略 能 显 
著 提 高 审计 效率 ,而 一 旦 有 副本 出 错 , 如 何 快速 定位 出 错 副本 将 成 为 一 个 新 的 值得 深入 人 研究 
的 重要 问题 *“ 。 付 等 全 提出 了 一 种 多 副本 文件 的 完整 性 验证 方案 ,与 以 往 的 多 副本 数 
据 完 整 性 验证 方案 不 同 ,该 方案 能 够 验证 所 有 副本 文件 的 完整 性 。 

清华 大 学 的 舒 继武 教授 每 人 提出 的 数据 持 有 性 检查 (Data Possession Checking, 
DPC) ”是 国内 第 一 篇 关于 数据 持 有 性 证 明 的 论文 。 方案 的 基本 思想 是 在 一 次 挑战 中 , 检 
查 者 指定 文件 中 c 个 随机 位 置 的 数据 块 和 一 个 密 钥 &, ,服务 器 根据 这 些 数据 块 和 和 密 钥 ,由 
A fo] Hash PRZ A C * Oi S: — A Hash 值 ,并 和 一 个 与 之 对 应 的 校 验 块 一 起 返回 给 检查 
者 ,检查 者 检查 Hash 值 和 校 验 块 是 否 匹 配 以 确定 应 答 是 否 有 效 。 为 了 避免 检查 者 为 每 个 
挑战 记 住 c 个 随机 位 置 和 和 密 钥 , 每 次 挑战 的 位 置 由 伪 随 机 置换 g(，。) 根 据 一 个 密 钥 k， HE 
成 ,并 且 第 7 次 挑战 的 & 和 ,可 由 第 j 一 1 次 挑战 的 &， 和 ,得 到 ,这 样 检查 者 只 需 为 每 
个 文件 记 住 两 个 密 钥 即 可 。 同 时 ,他 们 提出 一 种 基于 校 验 块 循环 队列 的 挑战 更 新 机 制 ,通过 
更 新 挑战 允许 动态 增加 检查 者 可 发 起 的 有 效 挑 战 的 次 数 。 测 试 结 果 表 明 ,检查 者 端的 存储 
开销 与 检查 者 和 服务 器 间 的 通信 开销 均 为 常数 量 级 ,如 一 次 置信 和 度 为 99. 4% 的 持 有 性 检查 
的 计算 开销 为 1.8ms ,与 磁盘 1/0 开销 相 比 可 以 忽略 不 计 。 方 案 通过 避免 使 用 公 钥 密码 系 
统 ,将 文件 预 处 理 的 计算 开销 降低 了 3 个 数量 级 。 但 是 他 们 没有 提供 安全 性 证 明 。 

云 存 储 环 境 中 存在 大 量 的 需 频 繁 更 新 ( 需 进 行 增 加 、 删 除 和 修改 操作 ) 的 数据 , 称 之 为 动 
态 数据 。 传 统 的 基于 静态 数据 (或 称 归 档 数据 ) 的 审计 方案 不 能 直接 应 用 此 类 数据 ,其 原因 
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主要 是 : 传统 审计 方案 中 数据 块 标 签 的 计算 过 程 c= 王 (PCGzllv)g”) ”涉及 数据 块 的 序号 值 
i, 而 对 于 数据 块 的 增删 操作 会 引起 序号 值 的 变化 ,并 最 终 导 致 相关 数据 块 标签 需要 重新 生 
成 ,从 而 给 用 户 带 来 较 大 的 额外 开销 ; 频繁 更 新 操作 使 得 数据 块 的 版 本 信息 不 断 变化 ,审计 
过 程 不 但 要 验证 数据 的 完整 性 ,还 需 确保 数据 的 新 鲜 度 ( 即 最 新 版 本 )。 鉴 于 此 , 需 设计 支持 
数据 动态 性 的 云 数据 持 有 性 审计 方案 "0 。 

布朗 大 学 (Brown University) 的 Erway 等 人 提出 两 种 动态 数据 持 有 性 证 明 方 案 
(Dynamic PDP,DPDP) 2 实现 数据 更 新 。 一 种 使 用 基于 等 级 的 鉴别 跳 表 (Rank-based 
Authenticated Skip Lists) ,一 种 基于 RSA 树 结 构 。 其 主要 工作 是 实现 动态 性 , 即 实现 插入 
操作 。 整 个 方案 仍然 是 基于 RSA 的 模 指 运算 。 随 后 ,Wang 等 人 ”提出 了 一 种 基于 MHT 
(Merkle Hash Tree) 的 动态 数据 公开 审计 方案 (MHT-PA)。 为 进一步 提高 动态 数据 的 审 
计 和 更 新 效率 ,Zhu 等 人 95 提出 了 一 种 基于 IHT(Index Hash Table ) 的 审计 方案 (IHT-PA) 。 

美国 伊利 诺 理 工大 学 (Illinois Institute of Technology) 的 Wang 和 美国 伍 斯 特 理工 学 
bi (Worcester Polytechnic Institute) 的 Lou 在 文献 L54j 中 第 一 次 在 云 计 算 环 境 下 考虑 数据 
存储 的 安全 性 ,他 们 提出 的 方案 可 以 定位 发 生 错 误 的 服务 器 ,并 实现 了 部 分 数据 更 新 操作 。 
在 接 下 来 的 工作 55 中 ,他们 提出 结合 基于 BLS 的 同 态 鉴 别 器 和 MHT, 支 持 公 开 验 证 和 数 
据 更 新 。 在 文献 L14] 中 ,他 们 考虑 的 是 引入 一 个 第 三 方 的 审计 者 ,结合 随机 掩 码 技术 实现 隐 
私 保护 ,不 向 第 三 方 审 计 者 泄露 信息 。 但 是 他 们 的 数据 持 有 性 证 明 方 案 都 是 基于 公 钥 密码 
技术 , 且 没 有 考虑 相关 数据 恢复 技术 。 

Wang 等 5 提出 一 个 多 云 环境 下 的 基于 身份 ID 的 无 证 书 的 云端 数据 完整 性 验证 方案 。 
Liu 等 提出 一 个 大 数据 环境 下 的 动态 的 支持 公开 审计 的 PDP 方案 ,该 方案 实现 了 一 种 高 
效 的 可 验证 的 细 粒 度 更 新 机 制 。 

以 上 都 是 数据 持 有 性 证 明 的 方案 ,这 些 方案 考虑 到 各 种 需求 ,比如 动态 更 新 、 多 副本 数 
据 等 ,同时 为 了 提高 检测 效率 ,提出 公开 审计 与 批量 审计 ,但 所 有 这 些 方案 都 没有 考虑 到 检 
测 到 错误 后 ,如 何 进 行 数据 恢复 的 问题 。 

2. POR 方案 

RSA 实验 室 的 Juels 和 EMC 公司 的 Kaliski 第 一 次 提出 POR 的 概念 外 ,并 提出 基于 
“哨兵 ”(Sentinel) 的 POR 方案 。 其 基本 思想 是 首先 将 文件 加 密 并 使 用 纠 错 码 编码 ,在 编码 
后 的 文件 中 随机 插入 和 文件 数据 不 可 区 分 的 “哨兵 ”; 检查 者 在 挑战 时 要 求 服务 器 返回 在 这 
些 随机 位 置 的 “哨兵 ”。 他 们 证 明 只 要 服务 器 以 大 于 一 定 值 的 概率 做 出 有 效应 答 , 则 文件 是 
可 恢复 的 。 因 为 每 挑战 一 次 就 消耗 一 个 岗 哨 ,并 且 没 有 挑战 更 新 机 制 , 因 此 只 能 进行 有 限 次 
的 挑战 。 因 为 编码 及 增加 的 “哨兵 ”导致 文件 的 膨胀 率 达 到 15%. 

美国 加 州 大 学 圣地 亚 哥 分 校 的 Shacham 和 得 克 萨 斯 大 学 奥斯汀 分 校 的 Waters 在 文献 
[6] 中 提出 的 两 个 方案 也 是 使 用 同 态 标签 : 一 个 方案 基于 伪 随 机 函数 ,不 支持 公开 验证 ; 另 
一 个 方案 基于 BLS 签名 ,支持 公开 验证 。 他 们 使 用 纠 删 码 编码 ,但 是 没有 考虑 数据 更 新 
问题 。 

在 文献 [59] 中 ,Dodis 等 人 第 一 次 提出 POR 码 , 并 对 其 进行 形式 化 及 理论 分 析 工 作 , 给 
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出 了 几 个 将 POR 码 转 换 为 POR 方案 的 方法 。 他 们 提出 在 安全 性 与 其 他 参数 (如 使 用 次 
数 .挑战 位 置 和 服务 硕 存 储 开 销 等 ) 之 间 进 行 权 衡 的 方案 ,但 文中 没有 特别 考虑 通信 开销 及 
计算 开销 ,也 没有 考虑 数据 更 新 问题 。 

RSA 实验 室 的 Bowers 等 人 在 文献 L60j 中 提出 一 个 设计 POR 的 理论 框架 ,用 于 改进 已 
有 方案 的 POR 构造 ,实现 更 低 的 存储 开销 和 更 高 的 检 错 率 。 他 们 指出 关于 文件 更 新 及 公 
开 验 证 仍然 是 未 解决 的 公开 问题 。 

Curtmola 等 人 将 前 向 纠 错 码 (Forward Error Correcting Codes, faj id FEC) 集 成 到 PDP 
方案 中 “ ,是 因为 考虑 到 不 同 的 FEC 编码 具有 不 同 的 性 能 、 灵 活性 、 可 配置 性 、 纠 错 码 效 率 
和 数据 输出 格式 等 。 他 们 认为 RS 编码 效率 太 低 ,所 以 将 原始 文件 交换 位 置 ,从 中 选择 一 部 
分 进行 RS 编码 ,从 而 提高 编码 效率 ; 而 且 攻 击 者 不 知道 元 余 码 是 从 哪些 块 计 算得 到 的 ,可 
以 提高 安全 性 。 但 是 ,他 们 提出 的 方案 需 为 每 个 块 独立 生成 MAC, 显 然 会 市 来 很 大 的 存储 
开销 。 

RSA 实验 室 的 Bowers 等 人 在 文献 L62j] 中 提出 的 HAIL 方案 可 在 多 个 存储 服务 提供 者 
的 云 服 务 需 存放 数据 副本 ,然后 使 用 POR 方案 检测 数据 是 否 被 破坏 。 当 检测 到 某 一 服务 
提供 者 的 数据 被 破坏 时 ,可 以 利用 其 他 服务 硕 的 数据 进行 恢复 。 作 者 提出 将 MAC fid i A 
奇偶 校 验 块 中 。 首 先 HAIL 使 用 分 散 码 (Dispersal Code) 将 文件 块 分 散 到 不 同 服务 肯 上 , 因 
oj MAC 和 奇偶 校 验 块 都 可 以 基于 UHFs (Universal Hash Functions) ,作者 提出 结合 
PRFs,ECCs 及 UHFs 的 可 以 保证 完整 性 的 纠 错 码 IP-ECC。 文 中 对 攻击 模型 有 一 个 重要 
的 约束 条 件 : 在 一 个 给 定 的 时 间 段 ,只 能 控制 n TR AS ae PE o 个, 这样 的 一 个 时 间 段 叫 作 
epoch ,那么 过 了 n/b 个 epoch, 数 据 可 能 都 被 破坏 。HAIL 方案 保护 静态 数据 的 完整 性 ,不 
能 进行 数据 更 新 ,也 不 能 进行 公开 验证 。 

从 以 上 方案 的 构造 可 知 ,POR 方案 通常 是 在 PDP 方案 的 基础 上 加 入 纠 错 / 纠 删 码 来 实 
现 数据 的 可 恢复 性 ,但 如 何 将 纠 错 / 纠 删 码 与 已 有 的 PDP 方案 高 效 地 结合 在 一 起 ,也 是 一 个 
需要 人 研究 的 问题 。 

3. 其 他 方案 

美国 圣 塔 克 莱 拉 大 学 (Santa Clara University) 的 Schwarz MÆ EA INI KEK ES EAD 
校 (UCSC) 的 Miller 在 文献 L63j] 中 提出 使 用 线性 纠 删 码 将 数据 编码 ,使 用 代数 签名 
(algebraic signature) 对 块 计算 指纹 。 因 为 代数 签名 具 同 态 属 性 ,而 且 ECC 是 线性 码 , 所 以 
只 要 在 相同 的 域 上 计算 签名 和 奇偶 校 验 ,就 可 以 使 用 数据 的 签名 计算 得 到 唯一 的 奇偶 校 验 
的 代数 签名 。 他 们 考虑 的 是 P2P 的 环境 下 ,将 数据 编码 后 分 条 存放 在 Internet. 上 的 普通 机 
大 上 ,没有 给 出 方案 的 安全 性 证 明 。 

HP 实验 室 的 Lillibridge 等 人 在 文献 L64j 中 提出 利用 Internet BH 3638 OL ss 3: 94 P2P 备 
份 系统 。 每 个 计算 机 有 一 个 伙伴 集 , 并 且 由 一 个 简单 的 中 心服 务 天 来 寻找 伙伴 。 每 个 计算 
机 周期 地 加 中 心服 务 需 更 新 它 的 身份 及 需要 的 伙伴 ,中 心服 务 需 回 它 提供 候选 伙伴 集 ,该 计 
算 机 再 联系 这 些 伙伴 。 为 保证 机 密 性 ,数据 发 送 给 伙伴 机 融 前 使 用 对 称 密码 技术 加 密 ,并 且 
使 用 Reed-Solomon 纠 错 码 在 伙伴 机 器 间 进 行 元 余 纠 错 。 数 据 拥 有 者 可 以 同伙 伴 机 需 发 起 
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挑战 ,判断 该 伙伴 是 否 完整 保存 数据 。 类 似 于 PDP 方案 ,验证 时 使 用 MAC 码 , 额 外 的 存储 
开销 比较 大 。 

HP 实验 室 的 Shah 等 人 在 文献 L65] 中 提出 了 基于 数据 委托 的 方案 。 基 于 加 密 文件 的 
MAC, ,第 三 方 审 计 者 通过 挑战 应 答 验 证 存储 服务 提供 者 持 有 一 个 加 密 的 文件 。 因 为 挑战 是 
预计 算 的 ,只 能 进行 有 限 次 的 验证 ,元 数据 也 随 挑战 次 数 线性 增长 ; 并 且 方 案 只 能 用 于 加 密 
的 文件 ,要 求 审 计 者 维护 长 期 的 状态 信息 。 在 文献 [66] 中 他 们 提出 了 具有 隐私 保护 特性 的 
方案 , 即 不 向 第 三 方 泄露 任何 信息 。 该 方案 也 只 能 用 于 加 密 的 文件 ,也 要 对 整个 文件 计算 
MAC 以 及 使 用 MAC 验证 数据 持 有 性 ,有 较 大 的 计算 和 存储 开销 , 且 没 有 考虑 数据 更 新 问 
题 及 相关 数据 恢复 技术 。 

Æ B fp BI ^E (Brown University) lj Heitzmann 等 人 在 文献 167j 中 提出 验证 服务 需 啊 
应 的 数据 与 用 户 执行 的 更 新 是 否 一 致 。 该 方案 不 同 于 PDP 方案 ,其 目标 不 在 于 检测 到 数据 
破坏 ,而 是 验证 服务 需 啊 应 的 数据 与 Client 执行 的 更 新 一 致 ,因此 啊 应 数据 只 被 用 于 验证 完 
整 性 ,并且 只 在 请 求 文件 的 时 候 才 执行 。 方 案 使 用 鉴别 跳 表 维护 认证 信息 , 文 持 简单 .快速 
的 更 新 。 他 们 实现 了 一 个 在 Amazon S3 上 的 原型 系统 ,用 户 只 需 存放 一 个 Hash fB . ff fih 
开销 为 OCD ,服务 器 的 计算 开销 是 O(log(z ) ) 。 

Sebe 等 人 在 文献 [68] 中 提出 的 方案 基于 Diffie-Hellman 问题 ,要求 用 户 为 每 个 块 存放 
六 位 RSA 模 位 数 , 因 此 其 存储 开销 随 着 数据 块 数 线性 增长 ,并 且 协 议 要 求 服务 大 访问 整个 
文件 。 新 加 坡 国 立 大 学 (National University of Singapore) 的 Chang 和 Xu 在 文献 [69 | 4E 
出 Remote Integrity Check (RIC) ,RIC 方案 结合 文献 L46 ] 中 基于 RSA 的 方案 和 文献 [70 | 
中 基于 ECC 的 鉴定 器 , 它 不 是 POR 系统 ,但 是 所 有 在 RIC 下 证 明 安 全 的 方案 也 可 用 于 
POR AZ. RIC 的 目标 在 于 只 需要 验证 者 存放 少量 的 额外 信息 就 可 以 定期 地 检测 远程 服 
务 是 否 保 存 了 一 个 大 文件 。 但 是 他 们 的 方案 也 继承 了 文献 L46] 和 [L70] 中 方案 的 缺陷 ,基于 
公 钥 密码 技术 ,并且 要 求 对 整个 文件 取 才 ,计算 开销 很 大 。 在 文献 L71j 中 , Yamamoto 等 人 
也 提出 使 用 基于 RSA 的 同 态 Hash 困 数 进行 数据 持 有 性 验证 ,同时 还 提出 使 用 批 验证 提高 

另外 ,与 PDP 相关 的 是 存储 复杂 度 的 概念 。 它 表明 服务 器 保存 的 是 与 Client 数据 量 相 
等 的 信息 ,而 不 一 定 存放 的 是 原始 文件 。Golle 等 人 在 文献 [72] 中 第 一 次 提出 执行 存储 复 
杂 度 ,他 们 提出 一 个 基于 Diffie-Hellman 假设 的 方案 ,使 证 明 者 表明 其 至 少 使 用 了 大 小 为 
IF| 的 存储 空间 ,但 证 明 者 没有 直接 证 明 存 放 了 文件 FF, 只 是 证 明 已 经 分 配 了 足够 的 资源 来 

PDP 也 是 一 种 形式 的 内 存 检 测 5"753 | Blum 等 人 在 文献 [73] 中 第 一 次 提出 验证 文件 完 
整 性 而 不 需要 整个 文件 数据 的 问题 ,他 们 探究 了 如 何 高 效 地 检测 内 存 管 理 程序 的 正确 性 。 
随后 ,一 些 研究 者 开始 探究 在 一 定 范围 与 环境 下 动态 的 内 存 检 测 问 题 。 如 文献 L74j] 考 虑 只 
使 用 少量 状态 信息 验证 可 信 实 体 的 问题 ,如 可 信 计 算 模 块 , 用 来 验证 不 可 信 的 、 外 部 的 、 动 态 
改变 的 内 存 的 任何 块 的 完整 性 。 他 们 的 构造 采用 Merkle Hash 树 , 对 内 存 内 容 计 算 Hash. 
而 PDP 和 POR 方案 可 以 看 成 是 静态 文件 的 内 存 完 整 性 检测 。 
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沈 文 婷 等 “ 汪 针 对 用 户 用 于 生成 数据 签名 的 私 钥 可 能 会 因为 存储 介质 的 损坏 、 故 障 等 原 
因而 无 法 使 用 的 情况 ,提出 了 第 一 个 具有 私 钥 可 恢复 能 力 的 共享 数据 云 存储 完整 性 检测 方 
案 。 在 方案 中 , 当 一 个 群 用 户 的 私 钥 不 可 用 时 ,可 以 通过 群 里 的 1 个 或 者 t 个 以 上 的 用 户 帮 
助 其 恢复 私 钥 。 同 时 设计 了 随机 遮掩 技术 ,用 于 确保 参与 成 员 私 钥 的 安全 性 。 用 户 也 可 验 
证 被 恢复 私 钥 的 正确 性 。 

Liu 等 人 在 文献 L76] 中 对 云端 数据 完整 性 验证 方案 的 研究 工作 进行 了 综述 ,并 总 结 和 
比较 了 具有 代表 性 的 云端 数据 完整 性 验证 方案 。 谭 霜 等 在 文献 L[77] 中 给 出 了 数据 完整 性 证 
明 机 制 的 协议 框架 ,分 析 了 云 存 储 环境 下 数据 完整 性 证 明 所 具备 的 特征 ; 其 次 ,在 对 各 种 数 
据 完 整 性 证 明 机 制 加 以 分 类 的 基础 上 ,介绍 了 各 种 典型 的 数据 完整 性 验证 机 制 并 进行 了 对 
tt; 最 后 ,指出 了 云 存 储 中 数据 完整 性 验证 面临 的 挑战 及 发 展 趋势 。 

肖 达 等 "5 提出 面向 真实 云 存 储 环 境 的 安全 高效 的 PDP 系统 IDPA-MF-PDP。 通 过 基 
于 云 存储 数据 更 新 模式 的 多 文件 持 有 性 证 明 算法 MF-PDP. ,显著 减少 了 审计 多 个 文件 的 开 
销 。 通 过 隐 式 第 三 方 审计 架构 和 防 算 改 审计 日 志 , 最 大 限度 地 减少 了 对 用 户 在 线 的 需求 。 
用 户 、 云 服务 器 和 隐 式 审计 者 的 三 方 交互 协议 ,将 MF-PDP 和 隐 式 第 三 方 审 计 架 构 结 合 在 
一 起 。 理 论 分 析 和 实验 结果 表明 ,IDPA-MF-PDP 具有 与 单 文件 PDP 方案 等 同 的 安全 性 ， 
是 审计 日 志 提 供 了 可 信和 的 审计 结果 历史 记录 ,IDPA-MF-PDP 将 持 有 性 审计 的 计算 和 通信 
开销 由 与 文件 数 线性 相关 减少 到 接近 常数。 

王 宏 远 等 ”给 出 了 一 种 支持 数据 去 重 的 群 组 PDP 方案 (GPDP)。 基 于 矩阵 计算 和 伪 
随机 函数 ,GPDP 可 以 在 支持 数据 去 重 的 基础 上 ,高 效 地 完成 数据 持 有 性 证 明 , 并 且 可 以 在 
群 组 中 抵抗 恶意 方 选 择 成 员 攻 击 。 他 们 在 标准 模型 下 证 明了 GPDP 的 安全 性 ,并 且 在 百度 
云 平台 上 实现 了 GPDP 的 原型 系统 。 徐 光 伟 等 “提出 一 种 数据 验证 结果 的 检测 算法 来 抵 
御 来 自 不 可 信 了 验证 结果 的 伪造 欺骗 攻击 ,算法 中 通过 建立 完整 性 验证 证 据 和 不 可 信和 检测 证 
据 的 双 证 据 模 式 来 执行 交叉 验证 ,通过 完整 性 验证 证 据 来 检测 数据 的 完整 性 ,利用 不 可 信 检 
测 证 据 判定 数据 验证 结果 的 正确 性 ,此 外 构建 检测 树 来 确保 验证 结果 的 可 靠 性 。 理 论 分 析 
和 模拟 结果 表明 ,该 算法 通过 改善 有 效 的 验证 结果 保证 了 验证 结果 的 可 徘 性 ,提高 了 验证 

王 惠 峰 等 5 针对 现 有 的 数据 完整 性 审计 模型 采用 固定 参数 审计 所 有 文件 ,从 而 浪费 了 
大 量 计算 资源 ,导致 系统 审计 效率 不 高 ,提出 了 一 种 自 适 应 数据 持 有 性 证 明 方 法 (self- 
adaptive provable data possession ,SA-PDP) 。 该 方法 基于 文件 属性 和 用 户 需 求 动态 调整 文 
件 的 审计 方案 ,使 得 文件 的 审计 需求 和 审计 方案 的 执行 强度 高 度 匹 配 。 为 了 增强 审计 方案 
更 新 的 灵活 性 ,依据 不 同 的 审计 需求 发 起 者 ,设计 了 2 种 审计 方案 动态 更 新 算法 。 主 动 更 新 
算法 保证 了 审计 系统 的 覆盖 率 , 而 被 动 更 新 算法 能 够 及 时 满足 文件 的 审计 需求 。 实 验 结果 
表明 , 相 较 于 传统 方法 ,SA-PDP 的 审计 总 执行 时 间 至 少 减少 了 50% ,有效 增 加 了 系统 审计 
文件 的 数量 。 此 外 ,SA-PDP 方法 生成 的 审计 方案 的 达标 率 比 传统 审计 方法 提高 了 30%。 

在 文献 L[82] 中 , 田 晖 等 从 云 数据 持 有 性 审计 的 一 般 模 型 和 审计 系统 的 设计 目标 出 发 , 按 
照 实 现 的 审计 功能 ,对 近年 来 的 研究 成 果 进 行 了 详细 的 综述 ,并 对 已 有 研究 成 果 进 行 对 比分 
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Br ,指出 了 云 数 据 持 有 性 审计 研究 中 存在 的 开放 问题 及 发 展 趋势 。 关 于 云 存 储 环境 下 的 数 
据 完 整 性 审计 还 有 一 些 综述 文献 ,参见 L96-100 ], 

4. 方案 比较 分 析 

随 着 云 存 储 的 发 展 与 普及 ,数据 完整 性 审计 方案 取得 了 丰硕 的 研究 成 果 。 综 合 以 上 的 
研究 工作 ,所 提出 的 方案 在 审计 特性 或 审计 功能 方面 各 有 侧重 ,总 结 如 表 7-1 PS 


表 7-1 云 数 据 持 有 性 审计 方案 的 功能 比较 


南 计 方案 会 开 动态 批量 多 副本 nit 数据 隐 身份 隐 安全 
审计 数据 审计 FHE ARP ARP 假设 

CPOR'^ vi X » x x x — RSA 
SPDP^ x vi x x x x 一 RSA 
PDP‘! V x X x x x — RSA 
PPDP- Vv x "d x x V — DLP 
CL-PDP'? V x x x » x — DLP 
ID-RDP'" V x x x x 一 DLP 
3P-PDP'^ V x x x x N. — DLP 
DAP? J V V X x vi DLP 
IHT-PA'^? V J — x x V — DLP 
DHT-PA'* vi J V x X V 一 DLP 
MR-PDP"*^ x x x all x af — RSA 
DPDP.”" X V x x x x — RSA 
BLS-PDP^^ vi x x V x V — DLP 
MF-RDC* V V X Yi x V — DLP 
DM-DC** V V X vi x V — DLP 
2M-PDP"^ V x V Vv x J/ — DLP 
MHT-PAP* J V V x x V — DLP 
FU-DPA"" J V X x x vi DLP 
DPA-FAP*?! J J J X x V — DLP 
MuR-DP A!” J J x V x V — DLP 
TB-PMDDP'*”! V V X V x V — DLP 
3P-ASD?" V x x x | x a DLP 
SM-PDP^^ a x x » V x T, DLP 
Panda" v af a/ X ey | X X DLP 
Knox“ Ti X x x AJ re af DLP 
Oruta?! J V V x V V V DLP 
PBA-PDP*} V x V x V V » DLP 


注 :“、/ ”表示 支持 ;“X” 表 示 不 支持 ;“ 一 ”表示 未 提 及 或 未 涉及 ; RSA B Rivest-Shamir-Adleman, 24H I BAB; 
DLP 指 Discrete Logarithm Problem ,离散 对 数 问 题 。( 来 源 : 文献 [82]) 
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云 存 储 环境 中 存在 大 量 的 需要 进行 更 新 操作 的 数据 ,因此 一 系列 针对 动态 数据 的 完整 
性 审计 方案 相继 被 提出 K 7-207 列 出 了 几 种 具有 代表 性 的 动态 数据 完整 性 审计 方案 的 性 
能 比较 。 其 中 CSPCCIoud Service Provider) zn zx IRF 28 . DOC(Data Owner) 表 示 数 据 拥 有 
者 ,TPA(Third Party Auditor) 表 示 第 三 方 审计 者 。 


表 7-2 动态 数据 完整 性 审计 方案 性 能 比较 


计算 开销 
审计 方案 通信 开销 A 证 更 新 E 测 x 
CSP 审 计 者 CSP DO/TPA 

DPDP °° cO (logn) cO (logn ) cO (logn) tO (logn ) tO (logn ) 1—(1—v)‘ 
MHT-PA "* cO(Cogn) cO (logn) cO(logn ) tO (logn ) tO (logn ) 1—(1—»v)* 
FU-DPA "^?  cO(Clogn) cO Clogn) cO(logn ) tO (logn ) tO (logn ) 1—ü—»v)» 
DAP" OC) OC) Ofc * s) OG) OG +n) 1— (i=) 
IHT-PA"^? Oc 5) tess) O(ct+s) O(t) O(t * n) l G C a o * 
DHT-PA " O(c) OCc) O(c * s) OG) OC * n) iio 


MuR-DPA '* cO(logw * n) cO(logw * n) cO(logw * n) tO(logw * n) tO(logw *2n) 1—(1—v) 

注 : ”为 文件 的 数据 块 数目 ; s 为 每 个 数据 块 的 分 段 数 ; c 为 审计 的 数据 块 数目 ; v 为 文件 错误 率 ; t 为 更 新 数据 块 
数目 。 对 于 错误 率 为 v 的 文件 ,抽样 审计 < 个 数据 块 (C。s 个 数据 段 ) ,至 少 一 个 数据 块 ( 段 ) 被 检测 到 的 概率 为 1 一 (1 一 
v) (1—(1—)0*), CRM: 文献 [82]) 


总 结 已 有 的 研究 成 果 , 现 有 方案 仍然 存在 如 下 一 些 缺 陷 : 大 部 分 方案 基于 公 钥 密码 技 
术 , 所 以 计算 开销 很 大 ,特别 是 数据 量 大 的 时 候 。 针 对 大 数据 应 用 场景 ,作者 认为 应 该 尽量 
减少 计算 开销 大 的 公 钥 密码 算法 。 上 述 批 量 完整 性 审计 方案 可 以 极 大 地 减少 计算 和 通信 开 
销 , 但 一 旦 有 数据 出 错 ,定位 出 错 数 据 将 成 为 需要 解决 的 一 个 新 闻 题 。 

随 看 云 计 算 与 云 存储 技术 的 发 展 ,对 数据 完整 性 审计 的 要 求 会 越 来 越 高 ,设计 、 开 发 功 
能 丰富 ,效率 高 且 非 常安 全 的 数据 完整 性 审计 方法 成 为 迫切 需要 解决 的 问题 。 


7.3 最 新 完整 性 审计 方案 


AK BT 2017 年 以 来 的 最 新 成 果 进 行 总 结 性 的 介绍 。 

2017 年 以 来 , 云 存 储 环境 下 的 数据 完整 性 审计 方案 又 取得 了 丰硕 的 研究 成 果 。Yan 
等 ”提出 一 种 基于 同 态 Hash 函数 的 支持 动态 数据 更 新 的 PDP 方案 ,通过 引入 一 个 操作 记 
录 表 (Operation Record Table,ORT) 跟 踩 文 件 块 的 操作 实现 动态 数据 更 新 ,可 以 抵抗 伪造 
Wit (Forgery Attack) .替换 攻击 (Replace Attack) 和 重 放 攻击 (Replay Attack), Yu 等 中 
提出 一 种 基于 ID 的 PDP 方案 ,使 用 密 钥 同 态 密码 原 语 (Key-Homomorphic Cryptographic 
Primitive) 来 降低 系统 复杂 性 和 PKA 体系 中 建立 和 管理 公 钥 认证 框架 的 开销 。 

Wang 等 "提出 一 个 基于 ID 的 审计 方案 ,允许 用 户 授权 给 一 个 指定 的 代理 者 代表 用 户 
上 传 数 据 到 云 存 储 服务 顷 。 比 如 ,公司 可 以 授权 员工 上 传 文件 到 公司 的 云 账 号 中 。 代 理 通 
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过 可 识别 的 ID 来 进行 认证 和 授权 ,以 减少 复杂 的 证 书 管理 。 该 方案 不 仅 可 以 审计 外 包 的 数 
据 完整 性 ,还 可 以 审计 数据 来 源 、 类 型 和 文件 的 一 致 性 。Wang 等 -提出 在 线 / 离 线 PDP 模 
型 的 形式 化 ,将 数据 处 理 阶段 分 成 离线 和 在 线 阶段 ,将 大 部 分 开销 大 的 数据 处 理 计算 放 在 离 
线 阶段 ,在 线 阶段 只 处 理 轻 量 级 的 计算 。 

Yu 等 “5 提出 一 个 抵抗 密 钥 泄露 的 云 存 储 审 计 方 案 , 可 以 让 一 个 时 间 段 的 密 钥 暴露 后 ， 
不 影响 其 他 时 间 段 的 审计 。 在 每 个 时 间 段 ,让 第 三 方 审 计 者 (Third Party Auditor,TPA) 使 
用 自己 的 保密 密 钥 生成 一 条 更 新 消息 ,然后 发 送 给 客户 端 ,客户 端 基于 私 钥 更 新 他 的 签名 保 
密 密 钥 ,这 样 恶意 服务 器 在 未 暴露 密 钥 的 时 间 段 就 无 法 获得 该 签名 保密 密 钥 ,从 而 即使 在 某 
个 时 间 段 的 密 钥 被 泄露 ,也 不 会 影响 其 他 时 间 段 的 数据 审计 。Shen 等 “提出 一 个 支持 公 
开 验 证 的 .批量 审计 和 动态 数据 更 新 的 方案 ,该 方案 提出 一 个 新 的 由 一 个 双 链 接 信息 表 (a 
Doubly Linked Info Table) 和 一 个 位 置 数 组 (Location Array) 组 成 的 动态 结构 ,可 以 极 大 地 
减少 计算 和 通信 开销 。Lin SOU 提出 两 个 移动 云 计 算 环 境 下 的 PDP 方案 ,使 用 Merkle 
Hash 树 和 BLS 短 签名 ,支持 动态 数据 更 新 。 

2018 年 ,Fu 等 提出 一 个 动态 数据 的 POR 方案 DIPOR ,该 方案 基于 信息 分 散 算 法 
(Information Dispersal Algorithm,IDA) ,通过 健康 服务 大 上 的 部 分 健康 数据 可 以 恢复 被 破 
坏 的 数据 。He 等 ”提出 一 个 基于 双 线 性 对 的 无 证 书 PDP 方案 ,用 于 基于 云 计 算 的 智能 电 
网 中 的 数据 管理 系统 。 

此 外 ,还 有 一 些 只 在 网 络 上 在 线 公 开发 表 的 研究 成 果 。Tian 等 "指出 在 云 存 储 环 境 下 
进行 数据 完整 性 审计 的 重要 性 ,并 提出 公开 数据 审计 的 架构 与 需要 满足 的 特征 ,然后 对 已 有 
的 研究 工作 给 出 了 一 个 完备 的 综述 ,结合 各 种 审计 目标 与 功能 ,如 隐私 保护 动态 审计 、 批 审 
计 、 多 副本 审计 和 共享 数据 审计 ,总 结存 在 的 问题 和 以 后 的 发 展 趋势 。 针 对 公共 审计 下 第 三 
方 审计 者 可 能 造成 数据 拥有 者 敏感 信息 泄露 的 问题 ,Fu Ag OU 提出 一 种 通过 构造 同 态 可 验 
证 群 签名 实现 隐私 感知 的 公开 审计 方法 ,该 方法 要 求 至 少 上 个 群 管理 员 才 能 协作 恢复 密 钥 ， 
因此 降低 了 单 审 计 者 滥用 权力 的 风险 。 通 过 设 定 的 二 又 树 让 群 组 用 户 可 以 跟踪 数据 修改 ， 
当 数据 块 被 破坏 时 ,可 以 恢复 最 新 的 正确 版 本 。 

针对 现 有 的 数据 审计 方案 中 复杂 的 密 钥 管理 问题 ,Li 等 “1 引入 基于 ID 的 模糊 审计 ,用 
户 的 ID 被 认为 是 一 个 可 以 描述 的 属性 集合 ,使 用 生物 特征 作为 模糊 ID, 每 个 ID 绑 定 一 个 
私 钥 用 于 验证 其 他 用 户 响 应 数据 的 正确 性 。 针 对 大 部 分 的 PDP 方案 基于 传统 的 公 钥 基础 
设施 (Public Key Infrastructure, PKD ,有 比较 大 的 证 书 管 理 开 销 , 所 以 基于 ID 的 密码 算法 
(Identity-based Cryptography,IBC) 被 用 于 PDP 方案 中 。 但 IBC 方案 存在 密 钥 托管 (key 
escrow) 问 题 ,因此 ,Li 等 引 提 出 使 用 无 证 书签 名 技术 来 检查 群 组 之 间 共 享 数 据 的 完整 性 。 
在 该 方案 中 , 密 钥 包括 两 个 部 分 : 一 部 分 密 钥 由 群 组 管理 员 生 成 ,一 部 分 密 钥 由 用 户 自己 选 
择 。 为 保证 用 户 公 钥 的 正确 性 ,每 个 用 户 的 公 钥 与 其 唯一 ID 关联 ,比如 电话 号 码 等 ,因此 ， 
不 需要 证 书 并 且 没 有 密 钥 托管 问题 。 所 提 的 方案 支持 有 效 的 用 户 撤 销 。 

Rao °°) 提出 一 个 动态 数据 的 审计 方案 ,可 以 防止 不 可 信服 务 器 和 审计 者 的 合谋 攻 
击 。 该 方案 基于 叶子 认证 批 处 理 的 Merkle 哈 希 树 ( batch-leaves-authenticated Merkle 
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Hash Tree) ,可 以 批量 验证 多 个 叶子 节点 和 它们 的 索引 。 相 比 于 传统 的 Merkle Wr 4 94 3x 
个 叶子 节点 验证 ,该 方法 更 适用 于 动态 数据 更 新 。 在 已 有 的 文 持 用 户 撤销 的 PDP 方案 中 ， 
用 户 撤 销 的 计算 开销 与 该 用 户 持 有 的 文件 块 总 数 呈 线性 增长 。 为 了 解决 这 个 问题 ,Zhang 
等 2 提出 一 个 基于 ID 的 支持 用 户 撤销 的 PDP 方案 ,让 用 户 撤销 与 用 户 持 有 的 文件 块 数 无 
关 。 该 方案 使 用 一 种 新 的 密 钥 生成 和 私 钥 更 新 技术 ,在 撤销 用 户 时 ,只 需要 更 新 非 撤销 群 组 
用 户 的 私 钥 。Nayak 等 ”提出 一 个 支持 隐私 保护 的 PDP 方案 ,该 方案 支持 多 数据 拥有 者 、 
动态 数据 更 新 和 批量 验证 。 


7.4 未 来 发 展 方向 


自从 第 一 个 远程 数据 的 完整 性 审计 方案 提出 以 来 ,经 历 了 十 几 年 的 发 展 , 同 时 伴随 着 云 
存储 技术 的 快速 发 展 , 云 存储 环境 下 的 数据 完整 性 审计 得 到 了 充分 的 重视 ,并 取得 了 丰硕 的 
研究 成 果 。 但 是 , 随 着 云 存 储 技术 的 进一步 发 展 和 研究 工作 的 不 断 深入 ,将 来 云 存 储 环境 下 
的 数据 完整 性 审计 研究 工作 仍然 面临 一 些 新 的 挑战 和 有 待 进一步 探索 的 问题 ” 。 

1. 公开 验证 时 密 钥 管 理 与 第 三 方 审计 者 的 信任 问题 

考虑 到 外 包 数 据 的 大 容量 和 用 户 端 有 限 的 计算 资源 ,用 户 通常 可 能 无 法 承担 繁琐 的 验 
证 工作 ,需要 将 审计 工作 委托 给 可 信 第 三 方 审计 者 (Third Party Auditor,TPA) 执 行 。 但 是 
每 当 TPA 要 执行 审计 任务 时 ,都 需要 与 数字 证 书 认 证 机 构 (Certificate Authority,CA) 通 信 
以 完成 对 用 户 身份 的 认证 。 当 用 户 数量 很 大 时 ,TPA 需要 管理 大 量 的 与 用 户 认 证 相关 的 密 
钥 ,造成 很 大 的 密 钥 管理 开销 。 因 此 , 自 2017 年 以 来 的 最 新 方案 中 ,有 不 少 针对 密 钥 管理 问 
题 提出 的 方案 ,采用 基于 ID 的 身份 密码 技术 结合 无 证 书 认 证 ,来 简化 大 量 用 户 读 来 的 密 钥 
管理 。 

另外 ,引入 第 三 方 审计 者 ,认为 该 可 信 第 三 方 会 提供 可 靠 的 验证 结果 , 却 忽 略 了 在 实际 
的 云 存 储 环 境 中 是 否 能 够 找到 这 样 一 个 可 信和 实体 的 问题 。 在 实际 的 开放 的 云 存 储 环 境 中 ， 
并 不 存在 绝对 可 靠 的 数据 验证 者 ,他 们 可 能 因为 利益 或 其 他 原因 给 数据 验证 结果 的 准确 性 
和 可 徘 性 带 来 威胁 。 这 样 在 需求 与 现实 之 间 存 在 矛盾 ,怎样 解决 这 样 的 信任 问题 也 是 需要 
探索 的 问题 。 

2. 细 粒 度 的 动态 数据 完整 性 审计 

数据 更 新 操作 主要 包括 数据 的 修改 、 插 入 、 添 加 、 删 除 。 动 态 数 据 更 新 对 于 存储 服务 是 
一 项 非常 重要 的 特征 , 它 将 决定 用 户 是 否 选 择 使 用 该 服务 。 现 有 的 动态 数据 审计 方案 都 是 
以 数据 块 为 更 新 粒度 , 即 所 有 的 增加 、 删 除 操作 都 必须 以 数据 块 为 最 小 单位 。 在 实际 应 用 
中 ,存在 许多 频繁 而 数据 量 很 小 的 更 新 。 如 果 对 分 块 大 小 为 1MB 的 文件 做 nn 次 数据 增加 
操作 ,每 次 操作 所 增加 数据 大 小 均 为 1KB, 但 由 于 以 数据 块 为 最 小 更 新 粒度 ,增加 nn KB 的 
数据 将 需要 插入 n MB 的 数据 ,这 显然 是 极其 低 效 的 。 因 此 ,未 来 还 需 进一步 研究 支持 细 粒 
度 更 新 的 数据 完整 性 审计 方案 。 
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3. 多 副本 /批量 审计 中 错误 定位 问题 

针对 多 个 用 户 审 计 请 求 和 多 个 副本 进行 批量 审计 操作 是 提高 审计 效率 的 有 效 方式 。 然 
而 ,此 种 操作 方式 的 优势 仅 在 所 有 用 户 数据 或 多 副本 数据 都 正确 且 完 整 的 情况 下 才能 体现 ， 
而 一 旦 审计 不 通过 , 即 存在 用 户 数 据 或 副本 数据 出 错时 ,这 种 操作 方式 将 无 法 定位 出 错 的 用 
户 文件 或 副本 文件 。 当 然 , 转 而 对 各 用 户 的 请 求 或 多 副本 文件 逐一 进行 审计 ,是 最 简单 和 直 
接 的 方式 ,但 是 其 效率 显然 是 相当 低下 的 。 此 外 ,文献 [24] 中 曾 设 想 通 过 “二 分 查找 ”的 方式 
进行 定位 , 虽 未 实现 ,但 是 不 难 想见 该 方式 的 查找 过 程 中 将 涉及 大 量 审计 信息 的 多 次 聚合 和 
验证 操作 , 仍 会 给 云 服务 器 和 TPA 带 来 较 大 的 通信 和 计算 开销 。 因 此 ,如 何 快速 、 准 确 地 
定位 出 错 的 用 户 文 件 ( 或 副本 文件 ) 仍 是 批量 审计 (多 副本 审计 ) 中 一 个 尚 待 解决 的 开放 
问题 。 

4. 高 效 的 多 媒体 数据 审计 

图 像 .音频 与 视频 等 多 媒体 数据 占用 空间 较 大 ,是 被 上 传 至 云 服 务 需 的 和 常见 数 据 类 型 之 
一 。 由 于 此 类 数据 在 生成 后 一 般 不 作 修改 ,可 以 看 作 是 静态 数据 。 因 为 此 类 多 媒体 数据 量 
大 ,如 果 采 用 现 有 的 静态 数据 的 完整 性 审计 方法 ,需要 生成 大 量 的 同 态 标签 ,将 有 大 量 的 计 
算 开 销 , 因 此 并 不 是 最 有 效 的 方法 。 针 对 多 媒体 数据 的 特征 ,可 以 利用 可 逆 透 明 水 印 来 实现 
ra XC IE. XB SEEK EN tte A SI BR .音频 或 视频 中 作为 审计 证 据 , 代 蔡 现 有 的 基于 同 态 标签 技 
术 的 审计 方案 ,解决 标签 计算 量 .存储 量 过 大 的 问题 。 当 然 ,在 不 影响 数据 完整 性 的 前 提 下 ， 
如 何 提 取 作 为 审计 证 据 租 入 的 水 印 并 进行 高 效 的 验证 是 需要 深入 人 研究 的 重要 问题 。 

5. 在 新 型 计算 体系 下 设计 更 安全 的 审计 方案 

在 量子 计算 模型 下 ,大 数 分 解 、 离 散 对 数 等 计算 难题 都 能 在 亚 指 数 时 间 复 杂 度 内 完成 ， 
使 得 基于 这 些 困 难 问题 的 安全 模型 将 不 再 安全 。 因 此 ,在 云 存 储 环境 下 构造 新 型 计算 体系 
下 安全 的 数据 完整 性 审计 方法 是 面临 的 一 个 严峻 问题 。 

6. 完整 性 审计 方案 效率 与 扩展 性 

云 存储 服务 中 高 效 且 安全 的 数据 完整 性 审计 与 恢复 方案 的 设计 ,一 方面 要 提高 数据 审 
计 的 计算 、 通信、 存储 效率 ; 男 一 方面 要 提高 检测 效率 ,以 高 概率 和 高 精度 检测 到 错误 并 实 
现 数据 恢复 。 同 时 ,也 要 提供 服务 质量 保证 。 一 方面 要 提供 不 同 质量 的 服务 ; 另 一 方面 要 
让 用 户 可 以 利用 性 能 跟踪 工具 以 及 多 副本 协议 等 来 评价 服务 提供 者 的 质量 ,以 达到 服务 需 
声称 的 性 能 及 质量 。 比 如 ,声称 数据 带宽 为 100KB/s, 就 应 该 达到 100K B/s; WR PRE t 
份 副 本 , 则 确实 拥有 t 份 副 本 。 


7.5 本 章 小 结 
本 章 首 先 对 云 存 储 环 境 下 数据 完整 性 审计 进行 概述 ,从 问题 的 起 源 .完整 性 审计 方案 分 


类 和 审计 目标 讲 起 ,然后 介绍 数据 审计 的 发 展现 状 ,进一步 详细 介绍 了 最 新 的 完整 性 审计 方 
案 ,最 后 总 结 以 上 工作 ,提出 完整 性 审计 的 未 来 发 展 方 问 。 
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云 存 储 数 据 备份 与 恢复 


云 存 储 服务 最 大 的 优势 之 一 ,就 是 数据 的 可 用 性 和 可 靠 性 能 够 得 到 保障 。 这 是 因为 云 
存储 服务 提供 商 可 以 为 用 户 提供 最 好 的 容 灾 备份 方案 ,在 各 种 灾难 、 系统 故 障 和 安全 事故 
中 ,都 可 以 保证 用 户 数 据 的 可 用 性 和 可 人 靠 性 ; 而 且 在 实际 应 用 中 ,数据 备份 系统 还 可 以 提供 
并 行 读 写 ,从 而 提高 数据 访问 效率 。 

本 章 将 对 云 存 储 服务 中 的 数据 备份 与 恢复 技术 进行 介绍 ,包括 数据 备份 系统 分 类 、 性 能 
指标 、 纠 删 码 技术 原理 与 发 展 、 几 种 备份 技术 对 比 以 及 数据 恢复 技术 ,最 后 给 出 一 个 基于 喷 
泉 码 的 数据 备份 系统 的 备份 、 检 测 与 恢复 数据 的 实例 。 


8.1 数据 备份 与 恢复 概述 


日 益 增 长 的 数据 规模 对 构建 良好 的 存储 系统 提出 了 重大 挑战 , 既 能 提供 极 高 的 数据 存 
取 性 能 又 要 保障 恨 好 的 可 扩展 性 ,甚至 在 月 然 灾 害 等 各 类 危害 面前 ,仍然 能 保证 系统 的 可 用 
性 和 可 徘 性 ,还 要 尽 可 能 地 节省 成 本 。 

传统 的 基于 RAID(Redundant Array of Independent Disks, ži V R A TER M YI) H 
DAS(Direct Attached Storage. 直 连 式 存 储 ) 或 基于 SAN(Storage Area Network ,存储 区 域 
网 络 ) 的 网 络 存储 系统 等 都 无 法 同时 满足 大 数据 存储 在 性 能 .可 扩展 性 可用性、 可 徘 性 、 经 
济 成 本 等 方面 的 要 求 。 而 由 专业 技术 人 员 管 理 的 云 存储 可 以 满足 以 上 所 有 要 求 , 但 数据 的 
可 用 性 和 可 徘 性 需要 通过 数据 备份 与 恢复 技术 来 实现 。 

一 方面 , 云 存储 服务 提供 商 需 要 建设 跨 地 域 的 存储 备份 服务 器 ,以 实现 在 磁盘 故障 或 者 
天 灾 等 意外 和 灾难 发 生 的 时 候 , 最 小 化 灾难 和 意外 让 来 的 影 吓 ,通过 数据 恢复 等 手段 使 用 户 
能 够 不 受 影响 地 使 用 数据 服务 ; 另 一 方面 ,由 于 云 存 储 中 海量 的 数据 以 及 大 量 的 存储 设备 ， 
云 存储 系统 中 往往 包含 成 千 上 万 的 存储 节点 ,庞大 的 节点 数量 使 得 节点 失效 成 为 常态 ,因此 
需要 保证 在 部 分 存储 节点 失效 的 情况 下 ,用户 仍然 能 够 正常 地 访问 数据 。 

本 节 将 对 数据 备份 与 恢复 技术 做 一 概述 ,主要 介绍 备份 系统 的 分 类 和 性 能 指标 。 


8.1.1 ARRIR 
为 了 提高 云 存储 系统 的 可 用 性 和 可 靠 性 ,常用 的 数据 容错 与 备份 方案 有 两 种 。 
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(OD 为 一 个 数据 对 象 创建 右 干 个 副本 。 

(2) 以 编码 的 形式 提供 一 些 元 余数 据 。 

因此 , 云 存 储 的 备份 系统 可 以 分 为 基于 多 副本 和 基于 纠 删 码 两 类 。 

1. 基于 多 副本 的 云 存储 备份 方案 

基于 多 副本 (Multi-copy based) 的 备份 方案 通过 将 数据 存储 为 多 个 副本 来 确保 用 户 数 
据 的 可 用 性 和 可 靠 性 。 这 种 方案 简单 直观 且 易于 实现 和 部 署 ,在 实际 中 也 得 到 了 广泛 的 应 
用 ,如 Google 文件 系统 (Google File System. GFS)! 和 Hadoop 的 分 布 式 文件 系统 (Hadoop 
Distributed File System. HDFS) 都 采用 了 基于 多 副本 的 备份 技术 。 不 过 ,因为 需要 为 每 
个 数据 对 象 创建 奋 干 同样 大 小 的 副本 ,需要 的 存储 空间 开销 比较 大 。 

2. 基于 纠 删 码 的 云 存 储备 份 方案 

基于 纠 删 码 (Erasure Code based) 是 一 种 基于 编码 的 容错 技术 ,最 早 应 用 在 通信 和 领域 
中 ,用 于 解决 数据 在 传输 中 易于 损耗 的 问题 。 纠 删 码 的 基本 原理 是 把 传输 的 信号 分 段 ,然后 
加 入 一 定 的 校 验 信息 ,让 分 段 的 信息 之 间 产 生 关 联 。 如 果 在 传输 过 程 中 部 分 信号 失效 ,接收 
端 仍 能 通过 计算 恢复 出 原始 信号 。 

按照 元 余 码 的 功能 ,基于 编码 的 容错 技术 可 以 分 为 检 错 、 纠 错 和 纠 删 3 种 类 型 。 其 中 检 
错 码 仅 具 备 识 别 错误 码 的 功能 ,而 无 纠正 错误 码 的 功能 ; 纠 错 码 不 仅 能 识别 错误 码 , 同 时 可 
以 纠正 错误 码 ; 纠 删 码 则 不 仅 可 以 识别 、 纠 正 错 误 码 ,而 且 当 错误 码 超过 纠正 范围 时 ,还 可 
把 无 法 纠 错 的 数据 删除 。 

目前 , 纠 删 码 技术 在 分 布 式 存储 系统 中 的 应 用 主要 有 : 阵列 纠 删 码 (Array Code) , 如 
RAID 5,RAID 6 等 ,里 德 -所 罗 门 (Reed-Solomon,RS) 类 纠 删 码 , 低 密度 奇偶 校 验 码 (Low 
Density Parity Check Code, LDPC) ,循环 元 余 校 验 码 CCyclic Redundancy Check, CRC) , 卷 
积 码 (Convolution Code) LJ & Zit ^r: i IR AS (Digital Fountain Code) 等 。 

基于 纠 删 码 的 备份 方案 通过 对 数据 对 象 进行 编码 ,将 多 个 数据 块 的 信息 融合 到 较 少 的 
见 余 信息 中 ,因此 可 以 有 效 地 节省 存储 空间 。 但 是 基于 纠 删 码 的 备份 技术 在 读 写 数据 时 需 
要 分 别 进行 编码 和 解码 操作 ,有 一 些 额 外 的 计算 开销 。 

在 基于 纠 删 码 的 备份 技术 中 ,有 一 种 新 的 基于 再 生 码 (Regenerating Code based) 的 备 
份 方案 。 基 于 再 生 码 的 备份 方案 也 是 基于 网 络 编码 理论 ,是 一 种 改进 的 纠 删 码 , 它 可 以 有 效 
地 减少 修复 带宽 ,并 具有 更 好 的 安全 性 ,因此 得 到 了 广泛 的 研究 和 应 用 。 

备份 的 目的 是 当 数 据 失效 后 ,能 够 高 效 地 恢复 出 原始 数据 。 两 类 备份 技术 各 有 利 棘 ,其 
中 基于 多 副本 的 备份 技术 只 需要 从 其 他 副本 下 载 同 样 大 小 的 数据 即 可 进行 修复 ; 基于 纠 删 
码 的 备份 技术 则 需要 对 数据 进行 修复 操作 ,利用 元 余 的 编码 块 从 已 经 被 破坏 的 数据 中 恢复 
原始 数据 。 


8.1.2 性 能 指标 


云 存储 服务 要 得 到 广泛 的 应 用 ,就 必须 设计 恨 好 的 容 灾 备 份 系统 ,从 而 可 以 在 磁盘 故障 
或 日 然 灾 害 等 意外 和 灾难 发 生 的 时 候 , 能 够 通过 目 员 的 一 些 特殊 机 制 ,最 小 化 灾难 和 意外 市 
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来 的 影响 ,通过 数据 恢复 等 手段 保障 用 户 数据 的 可 用 性 和 可 徘 性 。 

对 于 不 同 的 数据 备份 与 恢复 技术 ,都 需要 考虑 到 存储 开销 .计算 效率 、 容 错 率 、 修复 开销 
等 因素 。 通 背包 括 以 下 性 能 指标 。 
存储 利用 率 : 备份 系统 的 存储 利用 率 是 指 原 始 数 据 量 与 实际 存储 的 数据 量 之 比 ,用 
于 评估 一 个 方案 的 额外 存储 开销 。 
计算 效率 : 因为 基于 多 副本 的 备份 技术 只 需要 下 载 一 份 副 本 就 可 以 恢复 数据 ,需要 
的 计算 量 很 小 ,所 以 计算 效率 通常 用 于 评估 纠 删 码 , 包 括 编 码 、 更 新 和 解码 三 方面 计 
算 开 销 。 
容错 率 : 可 以 容忍 的 最 多 出 错 条 块 数 。 假 设 容错 率 为 &, 则 当 任 意 不 多 于 有 个 条 块 
出 错时 ,可 以 通过 重 构 算法 恢复 出 所 有 出 错 的 条 块 ; 但 如 果 出 错 的 条 块 数 大 于 &, 则 
将 无 法 恢复 出 所 有 出 错 的 条 块 。 
修复 开销 : 是 指 当 数据 发 生 错 误 时 ,系统 能 正确 恢复 出 原始 数据 的 开销 。 在 基于 纠 
删 码 的 备份 技术 中 ,是 指 利用 编码 的 元 余数 据 从 未 出 错 的 数据 块 恢 复出 所 有 数据 的 
开销 。 将 修复 一 个 失效 块 平 均 所 需 下 载 的 数据 量 与 块 大 小 之 比 称 为 单 块 修 复 开 销 ， 
通常 采用 单 块 修复 开销 来 衡量 纠 删 码 的 数据 修复 开销 。 单 块 修复 开销 只 是 在 一 定 
程度 上 反映 了 纠 删 码 数据 修复 的 开销 ,但 无 法 反映 整个 系统 数据 修复 的 总 体 开 销 。 
数据 更 新 效率 : 当 需 要 对 数据 进行 更 新 时 ,两 类 备份 技术 均 需 要 重新 进行 备份 操 
作 。 使 用 纠 删 码 时 ,需要 对 更 新 后 的 数据 进行 编码 操作 ,因此 更 新 效率 是 基于 纠 删 
码 的 备份 技术 的 一 项 重要 指标 。 

在 云 存 储 中 ,对 于 基于 纠 删 码 的 备份 技术 主要 考虑 存储 利用 率 、 容 错 率 和 修复 开销 三 个 
方面 ,但 这 三 个 方面 相互 制约 ,要 提升 其 中 一 个 方面 ,会 影响 到 其 余 两 个 方面 。 因 此 ,需要 在 
这 些 要 素 之 间 进 行 权衡 选择 ,取得 一 个 平衡 的 方案 。 不 同 元 余 度 的 纠 删 码 具有 不 同 的 存储 
利用 率 ,在 原始 数据 量 相 同 的 情况 下 ,系统 采用 不 同 的 纠 删 码 , 其 实际 存储 的 数据 量 是 不 同 
的 ,从 而 导致 数据 修复 的 总 体 开 销 也 不 同 。 因 为 容错 能 力 是 容错 系统 的 基本 要 求 , 现 有 研究 
基本 都 是 在 保持 容错 能 力 的 前 提 下 ,在 存储 利用 率 和 数据 修复 开销 之 间 进 行 权 衡 。 基 于 再 
生 码 的 备份 与 恢复 技术 能 够 实现 在 一 定 存 储 利 用 率 下 修复 数据 时 需要 下 载 的 数据 量 的 下 
界 , 因 此 得 到 广泛 关注 与 研究 。 

在 一 些 应 用 中 ,数据 对 象 及 其 副本 或 者 元 余数 据 分 布 在 数据 中 心 的 不 同 节 点 上 ,因此 数 
据 的 谈 写 效率 和 可 徘 性 还 与 数据 中 心 的 节点 结构 紧密 相关 。 在 某 些 特殊 应 用 场景 中 ,还 需 
要 考虑 应 用 服务 右 和 备 援 服务 器 之 间 的 距离 ,数据 传输 方式 、 容 灾 系 统 的 恢复 时 间 目 标 
(Recovery Time Objective, RTO) 等 。 


8.2 纠 删 码 技术 


纠 删 码 是 数据 容错 与 备份 的 一 项 关键 技术 ,本 节 将 对 其 原理 和 发 展 做 一 简介 ,为 后 文学 
习 基于 纠 删 码 的 备份 技术 做 好 铺垫 。 
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8.2.1 纠 删 码 原理 


采用 纠 删 码 进行 容错 时 ,首先 要 把 竺 存储 的 数据 对 象 分 割 成 奋 干 大 小 相等 的 数据 块 , 然 
后 对 这 些 数据 块 进 行 编码 ,得 到 一 些 编码 块 , 读 取 数 据 时 只 要 获得 任意 足够 数量 的 编码 块 ， 
就 可 以 解码 得 到 原始 数据 。 

FA k 表示 编码 前 数据 块 的 个 数 ,n 表示 编码 后 的 数据 块 个 数 , 即 数据 块 和 有 元 余 块 的 总 
Bb 表示 每 个 数据 块 包含 的 比特 数 ,& 是 一 个 不 小 于 R 的 整数 ,表示 要 获取 的 数据 块 的 最 
少数 目 , 则 定义 纠 删 码 为 一 个 四 元 组 (n,k,b,k')。 这 个 定义 表示 通过 纠 删 码 编码 以 后 ,用 
户 在 获得 编码 后 的 任意 有 ' 个 文件 块 都 可 以 解码 还 原 原 始 数据 。 这 个 定义 可 简化 表示 为 (n， 
k +k’). 

WMR—T Cn k, k’) ZY A SAE R =", PEG 2 I G3 98 A Ee ER ES n] 2) (Maximum 
Distance Separable, MDS) fE it , tE fj iz; ZY HAA 7j MDS 45 , nT WA E f EE] 90 ZA (On ,k ) 来 
表示 。MDS 码 在 相同 的 容错 能 力 下 拥有 最 小 的 存储 空间 开销 。 

纠 删 码 的 基本 原理 就 是 : 在 数据 块 与 校 验 块 或 元 余 块 之 间 通 过 一 定 的 编码 方式 建立 联 
系 , 当 部 分 编码 后 的 数据 块 失效 时 ,利用 这 些 元 余 的 校 验 块 ,经 过 一 定 的 解码 或 修复 操作 ,可 
以 恢复 出 原始 数据 。 

关于 纠 删 码 的 研究 工作 已 经 非常 丰 寅 ,为 了 提高 编码 算法 的 容错 能 力 , 同 时 降低 编码 复 
AREE ,研究 者 们 提出 了 很 多 编码 方法 。 根 据 编码 方式 的 不 同 ,这 些 方法 可 以 分 为 里 德 -所 罗 
|] (Reed-Solomon, RS) W , (IK 2 FE 43 (B 8 Uy 15 (Low Density Parity Check Code. LDPC) , fff 
环 元 余 校 验 码 (CCyclic Redundancy Check. CRC) , 2$ $4183 (Convolution Code) LJ K XF Ws RR 
i3 (Digital Fountain Code) $$, 

虽然 在 拥有 相同 容错 能 力 的 前 提 下 ,基于 纠 删 码 的 备份 技术 的 存储 利用 率 更 高 ,但 是 当 
数据 块 失效 以 后 ,基于 多 副本 的 备份 技术 只 需 下 载 一 块 同 样 大 小 的 数据 就 可 以 完成 修复 过 
程 ,而 基于 纠 删 码 的 备份 技术 则 需要 下 载 至 少 & 个 同样 大 小 的 数据 块 才能 解码 恢复 原始 数 
据 。 因 此 ,基于 纠 删 码 的 备份 技术 将 占用 更 多 的 网 络 带 宽 资 源 , 这 样 会 给 带宽 资源 比较 受 限 
的 数据 中 心 带 来 较 大 的 负担 。 同 时 , 读 取 数 据 的 开销 也 比较 大 ,从 而 限制 了 基于 纠 删 码 的 备 
份 技术 的 应 用 和 推广 。 因 此 ,降低 基于 纠 删 码 的 备份 技术 的 带宽 修复 成 本 ,成 为 目前 研究 的 
一 个 重要 问题 。 


8.2.2 纠 删 码 的 发 展 


纠 删 码 最 早 是 被 用 来 纠正 通信 过 程 中 的 错误 信息 。 纠 删 码 被 应 用 于 数字 通信 的 历史 可 
38 89] $8] 20 世纪 中 叶 ,然而 经 过 多 年 的 发 展 逐 渐 接 近 信 道 容 量 理论 的 极限 ,同时 由 纯粹 的 离 
散 信道 编码 理论 向 物理 信道 与 软 详 码 技术 的 趋势 转变 。 

纠 删 码 种 类 很 多 ,根据 编码 方式 ,主要 包括 以 下 几 类 : 里 德 -所 罗 门 码 、 低 密度 奇偶 校 验 
码 循环 匈 余 校 验 码 、 卷 积 码 以 及 数字 喷 果 码 等 。 

以 上 纠 删 码 技 术 基 本 都 是 将 原始 数据 分 块 , 然 后 采用 一 定 的 编码 技术 ,将 校 验 块 或 元 余 
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块 与 原始 数据 块 进行 处 理 , 得 到 编码 后 的 数据 块 。 

奇偶 校 验 码 中 的 分 组 码 是 一 类 相对 比较 人 简单 的 纠 删 码 , 一 个 (n,k) 分 组 码 是 把 信息 划 
分 成 个 码 元 为 一 组 ( 称 为 信息 组 ) ,以 码 组 规则 增加 x==n 一 k 个 校 验 元 ,通过 编码 需 生 成 
KEX n 个 码 元 的 一 组 : (Co ,Ci,…,C,_s,，C,_1), 作 为 (n,k) 线 性 分 组 码 的 一 个 码 字 ( 码 
HAER). q 进 制 下 ,包含 & 位 信息 位 的 码 字 共有 g" 个 信息 组 合 , 因 此 通过 编码 器 编码 后 
的 码 字 能 够 达到 q^. xx SEG ON Oi ,k) 分 组 码 ,长度 为 n 的 序列 的 可 能 排列 总 共有 g” RR. 
而 (n,k) 分 组 码 中 的 信息 组 合 只 有 gq* 个 ,因此 分 组 码 的 编码 问题 就 是 根据 一 定 的 规则 从 q” 
个 码 组 集中 选 出 g* 个 码 字 。 将 选取 的 g* 个 码 字 的 集合 称 为 可 用 码 组 ,其 余 的 g” 一 gq” 个 为 
禁用 码 组 。R —k/n 称 为 码 率 , 表 示 (n,k) 分 组 码 中 信息 位 在 码 字 中 的 比重 ,因此 R 是 衡量 
分 组 码 有 效 性 的 一 个 基本 参数 。 分 组 码 中 任意 两 个 码 元 C. C; 之 间 对 应 位 取 值 不 同 的 个 
数 , 则 称 为 两 码 元 之 间 的 汉 明 距离 d , 码 元 C 中 非 零 码 元 个 数 则 称 为 汉 明 重量 。 分 组 码 分 为 
线性 分 组 码 与 非 线 性 分 组 码 。 在 线性 分 组 码 中 ,任意 两 个 码 元 C,.C, 的 线性 组 合 仍 然 是 集 
合 中 的 码 字 。 

1948 年 ,现代 “信息 论 之 父 ” 香 农 发 表 了 《通信 的 数据 理论 》(A Mathematical Theory 
of Communication) ,开创 了 信息 与 编码 理论 这 一 新 的 学 科 。 根 据 香 农 定理 ,要 想 在 一 个 
带宽 确定 而 存在 噪音 的 信道 里 可 靠 地 传送 信号 ,只 有 两 种 途径 :; 一 种 是 加 大 信 噪 比 , 另 一 
种 是 在 信号 编码 中 加 入 元 余 纠 错 码 。 虽 然 香 农 指 出 了 可 以 通过 差错 控制 编码 在 信息 传 
输 速 率 不 大 于 信道 容量 的 前 提 下 实现 可 靠 通信 ,但 是 却 没 有 给 出 具体 的 实现 差错 控制 编 
码 的 方法 。 

1949 年 , 汉 明 (Hamming) 和 格雷 (Golay) 提 出 了 第 一 个 实用 的 差错 控制 编码 方案 ，。 
Hamming 将 输入 数据 的 每 4 个 比特 分 为 一 组 ,然后 通过 计算 这 些 信 息 比 特 的 线性 组 合 来 得 
到 3 个 校 验 比特 ,并 将 得 到 的 7 个 比特 信息 输入 计算 机 。 计 算 机 按照 一 定 的 规则 读 取 这 些 
码 字 ,通过 一 定 的 解码 算法 ,不 仅 能 够 检测 到 是 否 有 错误 发 生 , 还 可 以 找到 单个 比特 发 生 错 
误 时 的 比特 所 在 位 置 。 因 此 ,该 编码 方法 可 以 纠正 7 个 比特 中 的 单个 比特 错误 。 该 编码 方 
法 也 称 为 Hamming( 汉 明 ) 码 号 。 汉 明码 的 编码 效率 比较 低 ,每 4 个 比特 编码 就 需要 3 个 比 
特 的 元 余 校 验 比特 ,而 且 只 能 纠正 单个 比特 错误 。 格 雷 (Golay) 针 对 汉 明 码 存 在 的 缺点 , 提 
出 了 Golay i3 , Golay 码 分 为 二 元 Golay 码 和 三 元 Golay 码 , 二 元 Golay 码 将 信息 比特 的 
每 12 位 分 为 一 组 ,编码 生成 11 个 元 余 校 验 比 特 , 相 应 的 解码 算法 可 以 纠正 3 个 比特 错误 。 
三 元 Golay 码 的 操作 对 象 是 三 元 而 非 二 元 数字 , 它 将 每 6 个 三 元 符号 分 为 一 组 ,编码 生成 5 
个 元 余 校 验 三 元 符号 ,这 个 由 11 个 三 元 符号 组 成 的 三 元 码 的 码 字 就 可 以 纠正 2 个 三 元 符号 
的 错误 。 

1954 4E, E f& (Reed) ITE BM + FHC Thomas Muller) 提 出 Reed-Muller 码 ,简称 RM 
55:5?7. EE Hamming 码 和 Golay 3. RM 码 在 码 字 长 度 方面 更 加 高 效 ,其 纠 错 能 力 更 强 ， 
而 且 具 有 更 大 的 参数 选择 范围 。 

VAS” 也 是 一 类 重要 的 线性 分 组 码 , 它 是 从 多 项 式 环 与 有 限 域 发展 而 来 。 循 环 码 具 
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有 循环 移 位 特性 , 即 码 字 比 特 经 过 循环 移 位 后 仍然 是 码 字 集合 中 的 码 字 。 这 种 循环 结构 使 
码 字 的 设计 范围 大 大 增加 ,同时 简化 了 编 解 码 结构 。 循 环 码 既 可 以 采用 多 项 式 表 示 , 也 可 以 
采用 和 矩阵 表示 。 循 环 码 也 称 循环 见 余 校 验 码 (Cyclic Redundancy Check. CRC). 

Bose, Chaudhuri!" 和 Hocquenghem!” 4} HI] F 1960 年 和 1959 年 提出 了 BCH 码 (Bose 
Chaudhuri Hocquenghem Code. BCH), BCH 码 的 码 字 长 度 为 n= 二 gq” 一 1, 当 g 二 2 时 BCH 
码 的 纠 错 能 力 存在 如 下 界限 ; 1 二 (2” 一 1)/2。 

1960 年 ,里 德 (Reed) 和 索 罗 门 (Solomon) 将 BCH WM q —2 扩展 到 了 任意 值 而 得 到 
RS 码 (Reed-Solomon Code. RS), RS 码 能 够 纠正 q 进 制 编码 中 的 错误 。RS 类 纠 删 码 
是 一 种 线性 分 组 循环 宛 余 码 ,其 编码 及 解码 主要 是 采用 范 德 蒙 矩阵 (Vandermonde Matrix) 
或 柯 西 和 矩阵 (Cauchy Matrix) #4 3& . ER ZN yb $8 28 15 (Vandermonde Code) 和 柯 西 码 
(Cauchy Code) ,其 对 应 的 解码 算法 有 伯 利 坎 普 - 梅 西 算 法 (Berlekamp-Massey Algorithm) 
和 韦 尔 奇 - 伯 利 坎 普 算 法 (Welch-Berlekamp Algorithm) 。 

在 RS 码 中 ,通常 编码 符号 的 长 度 为 8bits 或 8bits 的 倍数 ,这 样 设 计 是 为 了 便于 同 计 算 
机 内 的 字 长 进行 互相 转换 。 假 设 一 个 长 度 为 N 的 RS 码 数据 包 中 包含 I 个 信息 符号 .P 个 
校正 符号 ,那么 通过 RS 码 的 解码 处 理 可 以 纠正 数据 包 内 工 个 信息 符号 中 的 上 = 王 P/2 个 错 
ik; 如 果 知 道 错误 位 置 , 则 可 纠正 P 个 错误 。 与 传统 的 阵列 码 相 比 ,RS 码 可 在 较 小 元 余 的 
情况 下 恢复 更 多 的 数据 。 但 是 因为 RS 码 中 的 基于 范 德 驼 矩阵 的 Vandermonde RS Code 
和 基于 柯 西 矩阵 的 Cauchy RS Code 均 涉 及 伽 罗 华 域 (Galois Field. GF) ,需要 的 矩阵 运算 强 
度 大 ,特别 是 矩阵 求 逆 运 算 ,因此 编 解 码 速度 较 慢 。 

1955 年 , 伊 莱 亚 斯 (Elias) 提 出 卷 积 码 ”” 。 与 分 组 码 不 同 的 是 , 卷 积 码 的 校 验 位 不 仅 与 
当前 信息 有 关 ,还 与 之 前 的 信息 相关 ,因此 各 码 组 之 间 的 信息 存在 相关 性 。 在 卷 积 码 解码 过 
程 中 ,不 仅 需要 此 刻 接 收 到 的 码 字 ,还 要 结合 k 个 与 该 码 字 相关 的 码 字 才能 译 出 一 个 子 码 
fii BG. H kxb,. Hh k 表示 该 码 字 中 的 信息 位 。N4 二 4 十 1 AGA RE Na HAW 
约束 长 度 ,N。 和 nN 分 别 表示 译 码 过 程 中 互相 约束 的 码 段 和 码 元 个 数 。 由 于 各 码 组 之 间 
存在 相关 性 ,因此 编码 的 信息 分 组 & 及 编码 长 度 n 也 比分 组 码 小 。 

1993 年 , 贝 鲁 (Berrou) 等 人 提出 了 接近 香农 信道 编码 理论 极限 的 纠 错 编 码 Turbo 
TU ( 见 美国 专利 (US Patent 5,446 ,747) ) 。 由 于 其 接近 信道 理论 的 极限 , 且 具 备 突出 的 纠 
错 能 力 ,一 直 备 受 关 注 。 其 对 当今 的 编码 理论 和 人 研究 方法 产生 了 深远 影响 ,但 是 也 受到 解码 
复杂 的 制约 。 目 前 主要 的 解码 算法 有 最 大 后 验 概 率 解 码 算 法 (Maximum A Posterori. 
MAP) .修正 的 MAP 算法 (MaxLog-Map) 和 软 输出 维特 比 算法 (Soft Output Viterbi Algorithm, 
SOVA), 

1962 年 ,加 拉 格 尔 (Gallager) 提 出 低 密 度 奇 偶 校 验 码 (Low-Density Parity-Check Codes, 
LDPC 5$3)"7?9, LDPC 码 利 用 校 验 矩阵 的 稀疏 性 ,使 得 解码 复杂 度 只 与 码 长 呈 线 性 关系 ， 
在 长 码 长 的 情况 下 仍然 能 够 有 效 地 解码 ,因而 具有 更 简单 的 解码 算法 。 而 且 进 一 步 的 研究 
表明 ,LDPC 码 和 Turbo 码 一 样 具 有 有 通 近 香 农 极限 的 性 能 ,实验 中 找到 的 最 好 的 LDPC 码 
的 极限 性 能 距 香 农 理论 极限 只 差 0.0045dB。 有 研究 表明 ,基于 非 规则 的 双向 图 的 LDPC 长 
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码 的 性 能 优 于 Turbo 码 , 具 有 更 低 的 线性 解码 复杂 度 。LDPC 码 也 因此 受到 广泛 的 关注 。 
LDPC 码 是 采用 迭代 解码 ,其 算法 的 推导 是 基于 在 节点 间 传 递 的 信息 统计 无 关 。 当 LDPC 
码 编码 矩阵 所 对 应 的 双向 图 存在 环 结 构 时 ,从 某 一 点 发 出 的 信息 经 过 环 被 传 回 该 节点 本 身 ， 
从 而 造成 自身 信息 县 加 ,破坏 了 独立 性 的 假设 ,进而 影响 解码 的 准确 性 。 因 此 ,LDPC 码 在 
构造 时 ,需要 对 编码 矩阵 对 应 的 图 进行 环 路 检测 及 消去 短 环 等 处 理 。 

级 联 型 低 密 度 纠 删 码 (Cascaded Low-Density Erasure Code) 是 由 级 联 随机 稀疏 二 部 图 
和 一 个 传统 的 纠 删 码 构造 而 成 的 一 种 特殊 的 纠 删 码 ,如 Tornado 15 3% FA fi iii kB ME. A FH 
异 或 操作 ,以 少量 的 解码 失效 换取 编 解 码 效率 的 极 大 提升 ,可 以 处 理 任意 大 小 数据 量 。 

1998 年 ,Luby 等 人 首次 提出 了 用 于 分 布 式 数 据 存储 的 数字 喷泉 码 * (Digital Fountain 
Code) 。 数 字 喷 果 码 是 一 种 线性 前 向 纠 错 编码 ,同时 也 是 一 种 分 组 码 。 数 字 喷 果 码 是 一 种 
无 固定 码 率 的 线性 码 ,假定 原来 有 个 字符 ,那么 将 这 上 个 字符 通过 线性 变换 组 成 n 个 字 
符 ,再 从 ?7 个 字符 中 任 取 & (CR 略 大 于 有 &) 个 字符 将 必 能 恢复 原 & 个 字符 。 数 字 喷 果 码 与 
LDPC 码 的 最 大 区 别 在 于 其 中 不 存在 码 长 n 的 定义 ,或 者 说 码 长 趋 于 无 穷 。 相 应 地 , 码 率 
R=k/n 的 定义 也 不 存在 ,因此 数字 咀 果 人 码 也 被 称 为 无 率 码 (Rateless Codes), 

2002 4E, Luby ”提出 了 第 一 类 通用 的 喷泉 码 一 一 基于 二 分 图 理论 的 LT (Luby 
Transform) 码 。 为 了 克服 LT 人 码 存 在 译 码 失败 的 问题 ,Shokrollahi 提出 了 利用 其 他 纠 错 码 
与 LT 码 级 联 的 Raptor 83207 , 它 由 一 个 预 编 码 和 LT 码 构成 ,是 数字 喷泉 码 模 型 中 用 于 可 
靠 传 输 的 最 新 码 。 

通信 过 程 中 存在 的 比特 或 信息 失效 问题 ,在 存储 系统 中 也 广泛 存在 ,因此 纠 删 码 技术 在 
通信 过 程 中 能 够 解决 的 问题 ,也 是 存储 系统 中 需要 解决 的 问题 。 这 也 是 各 类 纠 删 码 技术 很 
快 地 在 分 布 式 存储 系统 以 及 最 近 兴 起 的 云 计算 与 云 存储 系统 中 得 到 广泛 应 用 的 原因 。 为 了 
适应 这 些 新 兴 的 存储 技术 , 纠 删 码 在 应 用 于 实际 系统 中 也 需要 根据 系统 的 特征 进行 专门 的 
设计 与 实现 。 


8.3 数据 备份 技术 


本 节 将 对 两 类 主要 的 数据 备份 技术 进行 介绍 ,并 对 它们 的 特点 进行 对 比分 析 。 


8.3.1 基于 多 副本 的 备份 


基于 多 副本 的 备份 技术 对 一 个 数据 对 象 创建 多 个 相同 的 数据 副本 ,并 把 多 个 副本 分 布 
存储 到 不 同 的 节点 上 , 当 若 干 数 据 对 象 失效 以 后 ,可 以 通过 访问 其 他 有 效 的 副本 恢复 原始 数 
据 。 基 于 多 副本 的 备份 方案 中 ,创建 的 多 个 副本 支持 并 行 的 数据 访问 ,能 够 极 大 地 提高 数据 
的 读 写 效率 。 

对 于 基于 多 副本 的 备份 技术 的 研究 主要 包括 两 个 方面 : 数据 组 织 结构 和 数据 复制 策 
略 。 数 据 组 织 结构 主要 研究 大 量 数据 对 象 及 其 副本 的 管理 方式 ,数据 复制 策略 主要 研究 副 
本 的 创建 时 机 、 副 本 的 数量 .副本 的 放置 等 方面 。 王 意 洁 等 人 在 文献 L24j 中 对 这 些 内 容 进 行 
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了 详细 阐述 。 

1. 数据 组 织 结构 

基于 多 副本 的 备份 技术 中 ,数据 组 织 结构 主要 研究 如 何 组 织 和 管理 大 量 的 数据 对 象 及 
其 副本 。 常 用 的 组 织 结构 主要 有 两 种 : 基于 元 数据 服务 南 (Meta-data Server. MDS) 的 组 织 
结构 和 基于 P2P(Peer to Peer) 的 组 织 结 构 。 以 下 对 这 两 种 结构 进行 介绍 。 

(1) 基于 元 数据 服务 器 的 组 织 结构 。 

基于 元 数据 服务 器 的 组 织 结构 采用 统一 的 元 数据 服务 器 存储 数据 及 其 副本 的 元 数据 信 
息 ,这 些 信息 包括 副本 位 置 . 版本、 副本 与 数据 对 象 之 间 的 映射 以 及 一 些 系统 的 属性 、 特 征 、 
状态 等 。 这 种 组 织 结构 通过 把 管理 信息 存储 到 一 个 或 者 多 个 MDS 上 完成 对 数据 的 集中 式 
管理 。 当 用 户 访 问 数据 时 ,首先 与 元 数据 服务 器 交互 获取 数据 对 象 的 位 置 、. 版 本 等 信息 , 然 
后 把 数据 写 人 到 相应 的 位 置 或 者 从 相应 的 位 置 读 取 数 据 块 。 

基于 MDS 的 组 织 结构 利用 MDS 分 离 元 数据 的 读 写 过 程 和 数据 的 读 写 过 程 ,可 以 提高 
数据 的 容错 率 和 读 写 效率 。 为 了 降低 分 布 在 网 络 上 的 各 个 节点 访问 元 数据 服务 器 的 时 延 ， 
一 般 把 网 络 分 割 成 簇 ,然后 在 每 个 簇 内 构建 元 数据 服务 器 集群 “* ,从 而 把 用 户 的 访问 分 
配给 距离 较 近 、 负 和 载 较 轻 的 元 数据 服务 器 ,可 以 极 大 地 提高 数据 读 写 效率 。 

在 Google 文件 系统 路 和 Hadoop 的 HDFS2= 中 均 采 用 了 基于 元 数据 服务 器 的 组 织 结 
Hj. HDFS 的 体系 结构 如 图 8-1 所 示 , 其 中 的 MDS 放 在 NameNode( 名 字 节 点 ) 上 ,数据 则 
存放 在 数据 节点 (DataNode) 上 ,用 户 读 写 数据 前 , 均 需 要 与 NameNode 交互 ,取得 数据 的 元 
数据 信息 ,然后 从 DataNode 上 读 取 数据 。 


HDFS 体 系 结构 


8-1 HDFS 体系 结构 


HDFS 先 把 数据 分 割 成 固定 大 小 的 数据 块 ,然后 再 以 块 为 对 象 进行 复制 ,每 个 数据 节点 
定期 地 发 送 自己 拥有 的 数据 块 列表 信息 给 MDS, 因 此 MDS 能 够 掌握 数据 对 象 的 最 新 分 布 
状态 。 当 用 户 读 取 数据 时 ,首先 通过 MDS 获取 数据 的 块 列表 、 每 个 块 的 副本 列表 及 其 所 在 
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NWA Dae «SA e Y BE — P dc XE HJ CDS Sea. BAR iat MDS 获取 需要 
创建 的 副本 数目 以 及 分 配给 每 个 副本 的 数据 节点 的 位 置 ,然后 执行 数据 写 和 操作 ,并 在 数据 
写 人 完成 后 把 每 个 数据 块 的 块 列 表 信 息 以 及 数据 块 的 副本 信息 和 版 本 信息 等 记录 到 MDS. 

基于 元 数据 服务 右 的 组 织 结构 人 简单 ,易于 管理 ,但 是 对 数据 的 所 有 访问 都 需要 通过 
MDS ,容易 形成 瓶颈 ,从 而 影响 效率 且 存 在 单 点 失效 的 可 能 。 为 了 提高 性 能 ,同时 减 小 单 点 
失效 的 可 能 ,改进 的 方案 通过 构建 由 多 个 元 数据 服务 器 组 成 的 元 数据 服务 器 集群 ,分 散 单 个 
元 数据 服务 器 的 钠 载 , 减 小 单个 服务 强 失 效 对 系统 的 影响 ,同时 提升 数据 访问 的 效率 。 

(2) 基于 P2P 的 组 织 结构 

P2P(Peer-to-Peer) 网 络 也 叫 点 对 点 网 络 或 对 等 网 络 , 它 的 一 个 显著 特点 是 网 络 中 的 节 
点 是 对 等 的 ,没有 中 心 点 。 基 于 P2P 的 组 织 结构 把 所 有 的 节点 按照 P2P 的 方式 组 织 , 各 个 
节点 的 角色 是 对 等 的 ,数据 在 存储 时 按照 分 布 式 哈 布 表 (Distributed Hash Table. DHT) fj 
形式 存储 到 节点 上 ,通常 把 数据 的 副本 存放 在 负责 数据 映射 关键 字 节 点 的 奋 干 个 后 继 节点 
EU? ,访问 时 通过 计算 Hash 值 获得 数据 的 存放 位 置 。Amazon 的 Dynamo" 和 Facebook 
的 Cassandra"? 都 是 采用 基于 P2P 的 组 织 结构 管理 元 数据 。 

Dynamo 3% Fd — Si HEM 4 (Consistent Hashing) 2 T 
的 方法 把 数据 分 布 存 储 到 不 同 的 节点 上 。 一 致 性 (a) 
Hash 函数 的 值 域 ( 也 称 喻 希 空间 ) 构 成 一 个 封闭 的 (6) ` 
环 3B xt B6 DL Hb 45 RESI xx TET ip 25 [a] LE A Ae 


r 节点 B 、C 和 
值 ,Dynamo 把 节点 构成 一 个 环 ,而 这 些 值 则 表示 节 C) Mi Ee 
点 在 环 上 的 位 置 。 其 结构 如 图 8-2 所 示 。 其 中 包括 密 钥 K 


Dynamo 环 上 的 每 个 节点 负责 管理 自己 及 其 前 © 
一 个 节点 之 间 的 喻 希 值 空间 区 域 ,每 个 数据 对 象 都 
由 一 个 唯一 的 Key 标识 。 当 要 插入 数据 到 Dynamo 82 TR 
中 时 ,首先 对 Key 进行 喻 希 计 算得 到 一 个 哈 希 值 ,这 
个 值 一 定 属于 环 上 某 两 个 节点 之 间 的 喻 希 值 空间 区 域 。 沿 着 环 顺 时 针 查 找 , 可 以 找到 满足 
节点 的 哈 布 值 大 于 等 于 该 数据 哈 而 值 的 第 一 个 节点 ,该 节点 被 称 为 该 数据 的 协调 节点 
CCoordinator)。 协 调节 点 不 仅 存 储 落 在 目 己 范 轩 之 内 的 数据 ,而 且 负 责 对 其 管理 的 每 个 数 
据 对 象 复制 UN — 1 个 副本 ,并 把 这 些 副 本 存放 到 之 后 的 N 一 1 个 后 继 节 点 上 。 在 图 示 中 , 通 
过 对 数据 对 象 计算 Hash 值 ,判断 该 Hash 值 的 范围 来 决定 数据 的 存放 节点 。 在 图 8-2 中 ， 
革 个 数据 对 象 的 Key 标识 的 Hash 值 在 A 和 B 两 个 节点 的 哈 希 值 空间 区 域 范围 内 ,因此 将 
该 数据 对 象 的 副本 存放 在 A 节点 的 3 个 后 继 节 点 B.C 和 DD E. 

基于 P2P 的 组 织 结构 不 需要 统一 的 中 央 服 务 需 ,解决 了 元 数据 服务 硕 的 单 点 失效 和 人 性 
能 瓶颈 问题 。 但 是 因为 没有 全 局 的 信息 作为 指导 ,副本 的 放置 会 带 来 负载 不 均衡 的 问题 ,而 
且 协 调节 点 的 失效 会 导致 其 负责 管理 的 数据 对 象 不 可 用 。 

2. 数据 复制 方法 

数据 复制 方法 与 多 个 因素 相关 ,比如 应 用 需求 、 网 络 状 况 .存储 空间 和 数据 访问 模式 等 ; 
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同时 数据 复制 方法 对 于 数据 的 容错 率 、 读 写 效率 以 及 存储 空间 利用 率 等 至 关 重 要 。 对 于 复 
制 方法 的 研究 主要 包括 复制 策略 以 及 副本 的 放置 策略 两 个 方面 。 


CD 复制 策略 
复制 策略 主要 关注 创建 副本 的 时 机 以 及 创建 副本 的 数量 ,常见 的 复制 策略 包括 静态 复 
制 策略 和 动态 复制 策略 。 


。 静态 复制 策略 在 数据 写 入 时 就 创建 指定 数目 的 副本 ,然后 依据 副本 放置 策略 把 副本 


分 布 存 储 到 节点 上 。 例 如 ,Google 文件 系统 GFS 和 Hadoop 的 HDFS 都 是 由 配置 
参数 确定 副本 的 数 日 。 静 态 复 制 策略 简单 易 懂 , 但 是 不 能 依据 环境 的 变化 做 出 动态 
动态 复制 策略 可 以 依据 网 络 状 况 .存储 空间 .用 户 需求 等 动态 地 创建 或 者 删除 副本 。 
在 存储 空间 紧张 时 删除 部 分 副本 以 节省 存储 空间 ; 当 存 储 资源 丰富 时 ,为 频繁 访问 
的 数据 增加 副本 以 提高 效率 ,并 实现 市 点 负载 均衡 。 例 如 ,Facebook 的 Cassandra 
系统 就 是 通过 动态 复制 迁移 副本 以 均衡 节点 的 负载 。 动 态 复 制 策略 可 参考 文献 
L31-33j。 但 是 动态 复制 策略 在 动态 创建 或 者 迁移 副本 时 需要 执行 一 些 额 外 的 操 
NE ,特别 是 频 系 的 数据 传输 会 带 来 很 大 的 网 络 开 销 。 


(2) 放置 策略 

设置 放置 策略 的 基本 目的 在 于 提高 数据 的 容错 率 , 使 得 用 户 在 部 分 副本 失效 以 后 仍然 
能 够 通过 其 他 的 副本 获得 数据 。 但 是 将 创建 的 副本 传输 到 放置 节点 上 ,需要 占用 一 定 带 宽 
并 带 来 时 延 。 因 此 ,良好 的 放置 策略 不 但 要 考虑 容错 率 ,也 要 考虑 复制 效率 ,使 得 副本 能 够 
快速 地 放置 到 节点 上 。 

传统 的 针对 提高 容错 率 的 副本 放置 策略 有 顺序 放置 策略 和 随机 放置 策略 ,分 别 介 绍 


如 下 。 


”顺序 放置 策略 : 把 副本 按照 一 定 的 顺序 依次 放置 到 候选 节点 上 。 这 种 策略 的 思想 


是 : 若 一 个 放置 策略 产生 的 排列 越 多 , 当 多 个 节点 发 生 随 机 错误 时 , 越 容 易 造 成 多 
个 副本 失效 。 因 此 ,如 果 把 一 个 数据 对 象 的 所 有 副本 按照 一 定 的 顺序 放置 到 各 个 节 
点 上 ,那么 多 个 节点 失效 的 排列 数目 就 是 有 限 的 ,这 样 在 随机 失效 模式 下 可 靠 性 就 
得 到 提高 。 顺 序 放置 策略 比较 简单 ,而 且 容 易 实现 ,但 在 实际 应 用 中 ,各 类 失效 往往 
是 相关 的 。 比 如 网 络 的 失效 会 导致 整个 机 架 不 可 访问 ,而 断 电 则 会 导致 整个 数据 中 
心 不 可 访问 。 顺 序 放置 策略 一 般 应 用 于 分 布 式 哈 希 表 结 构 中 一 。 

随机 放置 策略 : 在 数据 的 可 放置 节点 集合 中 随机 地 选择 若干 个 节点 。 然 后 把 副本 
放置 到 这 些 随机 选择 的 节点 上 。 当 前 的 数据 中 心 的 副本 放置 大 多 采用 随机 放置 策 
略 ,比如 GFS 和 Cassandra 等 系统 。 随 机 放置 能 够 降低 关联 失效 对 可 靠 性 的 影响 ， 
同时 还 能 够 实现 节点 负载 均衡 。 但 是 这 种 理论 上 的 均衡 是 在 节点 的 同 构 性 和 数据 
访问 的 同 构 性 假设 条 件 下 得 到 的 ,在 实际 应 用 中 ,因为 每 个 节点 的 存储 能 力 、 计 算 能 
J .数据 的 访问 频率 均 不 同 ,一 些 数据 可 能 会 更 加 频繁 地 被 访问 ,因此 这 种 策略 并 不 
能 很 好 地 均衡 节点 的 负载 。 
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最 新 的 放置 策略 在 保证 容错 率 的 同时 , 旨 在 提高 副本 放置 的 效率 和 数据 访问 的 效率 。 
为 了 节省 副本 创建 和 传输 的 时 间 ,HDFS 的 设计 人 员 把 第 二 个 和 第 三 个 副本 放置 到 相同 的 
机 架 上 。 为 了 提高 数据 访问 的 效率 ,Chandy ACC 则 把 副本 放置 在 距离 用 户 较 近 的 节点 
上 ,使 得 访问 数据 时 能 够 较 快 地 获取 数据 。 而 Ding 等 人 -一 则 依据 用 户 的 访问 模式 ,对 那些 
经 党 访问 的 数据 创建 较 多 的 副本 ,并 把 副本 放置 到 用 户 访 问 密集 的 区 域 。 


8.3.2 基于 纠 删 码 的 备份 


与 基于 多 副本 的 备份 技术 相 比 , 纠 删 码 技术 可 以 在 显著 降低 存储 空间 消耗 的 同时 提供 
相同 甚至 更 高 的 数据 容错 能 力 “" 。 假 设 在 基于 多 副本 的 备份 方案 中 采用 3 个 副本 ,在 基 
于 纠 删 码 的 备份 方案 中 采用 (14,10)-Reed-Solomon 纠 删 码 ,基于 纠 删 码 的 备份 方案 可 将 存 
储 空 间 消 耗 降 低 53 26 ,同时 将 容错 能 力 提高 一 倍 。 

随 春 大 数据 时 代数 据 规 模 的 爆炸 式 增 长 ,容错 能 力 强 且 存 储 成 本 低 的 纠 删 码 容 错 技 术 
受到 了 广泛 关注 ,成 为 存储 领域 的 一 个 研究 热点 。 文 献 L39-42] 对 分 布 式 存储 中 的 纠 删 码 容 
错 技 术 、 单 磁盘 错误 重 构 优化 方法 、 随 机 二 元 扩展 码 等 进行 了 详细 的 阐述 。 

在 纠 删 码 技术 中 ,有 一 类 新 的 编码 技术 , 即 基 于 再 生 码 (Regenerating Codes) 的 纠 删 码 。 
与 传统 的 基于 度数 限制 方法 的 纠 删 码 不 同 , 基 于 再 生 码 的 纠 删 码 并 不 限制 数据 块 和 宛 余 块 
的 度数 ,而 是 通过 选择 特殊 的 编码 系数 来 构造 生成 矩阵 ,在 需要 修复 时 ,把 存储 在 同一 节点 
的 多 个 数据 块 的 数据 融合 ,从 而 降低 需要 传输 的 数据 量 ,达到 节省 带宽 成 本 的 目的 。 

2007 年 ,Dimakis 等 全 ' 和 首先 提出 了 一 种 称 为 再 生 码 的 纠 删 码 ,其 基本 思想 是 通过 
适当 增加 元 余 , 并 且 使 新 生 节 点 从 尽量 多 的 节点 下 载 数 据 , 来 降低 修复 需要 下 载 的 总 数 
据 量 。 

再 生 码 “5' 锯 也 是 一 种 基于 网 络 编码 思想 "1 设计 的 纠 删 码 , 它 具有 两 个 明显 的 特点 。 

(1) 再 生 码 的 数据 块 和 校 验 块 都 包含 相同 数量 的 子 块 ,编码 与 修复 时 以 子 块 为 基本 单 
位 , 子 块 之 间 的 关系 也 更 为 复杂 。 

(2) 再 生 码 在 进行 数据 修复 时 ,新生 节 点 需要 从 尽量 多 的 节点 来 下 载 数据 。 

再 生 码 一 般 用 三 元 组 (n ,k ,d) 表 示 。(n,k,d)- 再 生 码 的 一 个 条 带 包含 nn 个 编码 块 ,可 
以 容 妨 任意 nn 一 k 个 块 失效 ,进行 数据 修复 时 新 生 节 点 可 以 连接 d 个 存活 节点 下 载 数据 ,其 
中 kd 三 n 一 1。 男 外 ,再 生 码 还 有 3 个 常用 的 —————À 
辅助 参数 a B 和 B ,分 别 表 示 单 个 编码 块 包含 的 
子 块 个 数 .连接 到 d 个 节点 进行 数据 修复 时 从 EN 
单个 节点 下 载 的 子 块 个 数 和 一 个 条 带 包 含 的 数 
据 子 块 个 数 。 

再 生 码 的 基本 原理 如 图 8-3 所 示 ,假设 有 4 
个 数据 块 存放 在 2 个 节点 上 ,每 个 节点 存放 2 
个 数据 块 , 后 两 个 节点 上 存放 4 个 元 余 块 ,元 余 
块 分 别 由 前 两 个 节点 上 的 数据 块 计算 得 到 。 当 ”图 8-3 《4,2) 再 生 码 修复 一 个 矢 效 节点 的 过 程 
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某 个 节点 失效 时 , 先 在 各 个 节点 上 进行 一 次 组 合计 算 ,将 计算 结果 及 使 用 的 计算 系数 上 传 到 
修复 后 数据 块 要 存储 的 节点 。 由 图 中 可 知 , 修 复数 据 块 A 和 A, 只 需 传 送 3 个 块 大 小 的 数 
据 量 ,如 果 不 经 计算 融合 而 直接 传送 数据 , 则 要 传送 6 个 数据 块 ,因此 可 以 极 大 地 降低 网 络 
资源 消耗 。 

针对 基于 再 生 码 的 纠 删 码 研 究 主 要 关注 最 小 市 宽 再 生 码 (Minimum Bandwidth 
Regenerating Codes. MBR 码 ) 和 最 小 存储 再 生 码 (Minimum Storage Regenerating Codes, 
MSR 码 ) ,MBR 码 具 有 最 低 的 数据 修复 融 宽 ,MSR 码 具 有 最 低 的 存储 开销 。 

Dimakis 等 人 -入 提 出 了 再 生 码 的 概念 并 证 明了 再 生 码 修复 带宽 的 下 界 , 但 是 没有 证 明 
达到 这 个 下 界 的 再 生 码 是 否 存 在 ,也 没有 给 出 构造 这 种 再 生 码 的 具体 方法 。 

2009 年 ,Wu 等 人 -提出 了 确定 性 再 生 码 (Deterministic Regenerating Code) ,并 从 概 
率 统计 的 角度 证 明了 确定 性 再 生 码 (n,2,n 一 1) 的 存在 性 。 确 定性 再 生 码 通过 有 限 域 上 的 
基于 概率 统计 方法 的 随机 选择 系数 ,获得 一 组 满足 特定 要 求 的 系数 ,构造 出 能 够 精确 修复 元 
余 块 的 再 生 码 。 在 同一 年 ,Rashmi 等 人 ' 午 构造 了 一 个 (n,k,n 一 1) 确 定性 MBR 码 。2011 
年 ,Rashmi 等 人 "利用 和 矩阵 乘 的 方法 构造 出 了 (n,k,d) 的 确定 性 MBR 码 和 (n,k,d 宇 2k 一 2) 
的 确定 性 MSR 码 , 并 证 明 不 存在 d —2R —2 的 确定 性 MSR 码 。 至 此 ,所 有 存在 的 MBR 码 
和 MSR 码 都 可 以 用 统一 的 方法 被 构造 出 来 。 

再 生 码 可 以 对 数据 块 进行 确定 性 修复 ,但 对 元 余 块 却 只 能 做 到 功能 性 修复 , 即 修复 后 的 
见 余 信息 与 原始 元 余 信 息 不 一 致 ,但 可 以 提供 同等 程度 的 容错 能 力 。 

再 生 码 技术 采用 网 络 编码 的 方法 来 降低 修复 成 本 ,可 以 在 一 定 程度 上 减少 修复 过 程 中 
传输 的 数据 量 。 但 为 了 满足 一 定 的 编码 要 求 , 如 确定 性 修复 等 , 则 系数 所 在 的 有 限 域 要 足够 
大 才能 保证 系数 的 存在 性 ,而 且 编 码 系数 的 选择 方法 不 规则 ,实现 起 来 困难 。 同 时 ,再 生 码 
可 以 极 大 地 减少 修复 时 的 传输 数据 量 ,但 是 需要 读 取 的 数据 量 却 很 大 。 在 数据 修复 过 程 中 ， 
参与 修复 的 节点 需要 把 上 和 目 己 存储 的 所 有 数据 都 恋 取 出 来 进行 组 合计 算 。 由 于 MBR 码 需 要 
存储 的 数据 量 更 大 ,所 以 修复 时 需要 读 取 的 数据 量 比 传统 纠 删 码 多 。 这 不 仅 增加 了 系统 的 
磁盘 负载 ,也 限制 了 修复 的 速率 。 虽 然 MSR 码 存储 的 数据 量 和 传统 MDS 码 相 等 ,但 是 修 
复 时 需要 从 多 于 & 个 节点 下 载 数 据 ,所 以 其 读 取 的 数据 量 也 比较 多 。 

针对 上 述 问题 ,Shah AO! BER RBT (Repair by Transfer) MBR 码 。RBT MBR 码 
在 数据 修复 时 只 传输 数据 而 不 进行 任何 数学 运算 ,使 需要 读 取 的 数据 量 和 需要 传输 的 数据 
量 相 同 。 后 续 的 研究 工作 还 有 文献 L51 14% 

功能 性 最 小 存储 青 生 码 (Functional Minimum Storage Regenerated Code. FMSR 码 ) 是 
一 种 支持 功能 性 修复 的 最 小 存储 再 生 码 ,属于 典型 的 (n,k) 最 大 距离 可 分 (Maximum 
Distance Separable, MDS) 码 ,保持 了 MDS 码 良好 的 容错 能 力 和 存储 效率 。 对 于 一 个 大 小 
H M 的 文件 ,(n,k)-FMSR 码 将 其 切 分 成 k(n 一 &) 个 固定 大 小 的 原始 块 ,再 将 它们 编码 成 
n(n 一 ) 个 编码 块 , 上 传 给 nn 个 数据 节点 ,每 个 节点 存储 nn 一 k 个 编码 块 。 数 据 读 取 过 程 中 ， 
首先 随机 挑选 任意 k 个 节点 ,下 载 &(n 一 k&) 个 编码 块 ; 然后 对 其 进行 译 码 操作 ,还 原 出 原始 
数据 块 ; 最 后 ,将 数据 块 合并 成 原始 文件 。 
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Hu 等 人 利用 数据 的 拟态 变换 提出 一 种 功能 性 最 小 存储 再 生 码 ,主要 依赖 于 FMSR 
码 良好 的 修复 性 能 ,通过 控制 变换 时 机 和 编码 系数 的 选取 ,实现 数据 存储 状态 的 随机 时 变 切 
换 。 当 某 个 数据 市 点 因为 意外 情况 失效 了 ,为 了 保证 数据 的 安全 性 和 服务 的 连续 性 ,必须 尽 
快 对 其 上 的 数据 进行 修复 。 数 据 的 重 构 过 程 需 要 在 其 他 nn 一 1 个 数据 市 点 上 各 取 一 个 数据 
块 ,将 这 一 1 个 数据 块 重新 编码 生成 n 一 k 个 编码 块 ,替代 失效 节点 的 数据 。 

最 近 , 陈 越 等 人 “针对 云 存储 系统 确定 性 存储 模式 带 来 的 安全 威胁 ,提出 了 一 种 基于 
再 生 码 的 拟态 存储 机 制 ,通过 对 数据 进行 编码 存储 ,并 在 云端 进行 拟态 变换 ,增加 了 攻击 者 
获得 数据 的 难度 和 成 本 。 该 机 制 在 存储 过 程 中 引入 了 元 余 性 .随机 性 和 时 变性 , 文 持 数据 的 
快速 恢复 和 重 构 ,提高 了 系统 的 容错 性 和 抗 毁 性 ,可 保证 数据 的 完整 性 和 持续 可 用 性 。 拟 态 
化 存储 的 基本 思路 为 在 数据 存储 和 访问 的 过 程 中 ,加 入 时 变 和 随机 因素 ,实现 数据 存储 状态 
的 动态 可 变 , 从 而 增加 攻击 者 获取 数据 的 难度 和 成 本 。 

目前 基于 再 生 码 的 编码 方法 仍 处 于 探索 阶段 。 

研究 人 员 已 经 提出 了 各 种 类 型 的 纠 删 码 策略 “ ,同时 也 有 许多 研究 人 员 实 现 了 一 些 纠 
删 码 算法 ,并 公布 了 他 们 的 代码 库 ,比如 Plank 等 人 实现 的 Jerasure?^" LUBY 实现 的 Cauchy 
Reed-Solomon(http://www. icsi. berkeley. edu/ — luby/) , Python Software Foundation 发 布 的 
ZfecChttp://pypi. python. org/pypi/zfec) 以 及 Partow 实现 的 Reed-Solomon #4 Schifra 
(http://www. schifra. com/downloads. html), 2009 4E, Plank 4 AF5 对 一 些 常见 的 开源 
纠 删 码 实现 进行 了 评测 和 对 比 。 他 们 不 仅 比 较 了 各 个 开源 的 纠 删 码 实现 ,而 且 比 较 了 各 种 
已 有 的 纠 删 码 的 效率 ,同时 还 测试 了 各 个 参数 对 纠 删 码 效率 的 影响 ,为 研究 人 员 在 分 布 存储 
中 研究 基于 纠 删 码 的 备份 技术 提供 了 重要 的 参考 。 

HDFS 虽然 在 最 初 的 实现 中 采用 的 是 基于 多 副本 的 备份 技术 ,但 是 作为 具有 良好 结构 
的 开源 分 布 存 储 系统 , 它 为 纠 删 码 的 研究 和 测试 提供 了 了 展 好 的 平台 。 微 软 研 究 院 的 Zhang 
等 人 修改 了 HDFS, 使 其 支持 纠 删 码 的 备份 方案 。Fan 等 人 则 在 HDFS 中 加 入 一 个 后 
台 进 程 监控 数据 节点 上 的 数据 块 , 并 对 那些 生命 周期 超过 一 定期 限 的 数据 块 , 采 用 纠 删 码 的 
备份 方案 替换 多 副本 方案 ,从 而 节省 了 存储 空间 。 


8.3.3 几 种 备份 技术 的 优 缺 点 


基于 多 副本 的 备份 技术 简单 直观 ,易于 实现 和 部 署 , 且 可 以 并 行 访问 ,提高 了 数据 的 读 
写 效率 ,但 是 需要 为 每 个 数据 对 象 创建 耕 干 同样 大 小 的 副本 ,存储 空间 开销 比较 大 。 

基于 纠 删 码 的 备份 技术 则 能 够 把 多 个 数据 块 的 信息 融合 到 较 少 的 元 余 信息 中 ,因此 能 
够 有 效 地 节省 存储 空间 ,但 是 对 数据 的 谈 写 操作 要 分 别 进行 编码 和 解码 操作 , 震 要 一 些 计算 
开销 。 

当 数 据 失 效 以 后 ,基于 多 副本 的 备份 技术 只 需要 从 其 他 副本 下 载 同 样 大 小 的 数据 即 可 
进行 修复 ; 而 基于 纠 删 码 的 备份 技术 则 需要 下 载 的 数据 量 一 般 远 大 于 失效 数据 大 小 ,并 需 
要 进行 编 解码 操作 ,增加 了 额外 的 计算 开销 。 

假定 原始 数据 有 个 数据 块 , 编 码 后 的 数据 块 为 个, 纠 删 码 的 编码 参数 为 (n ,k), 获 
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取 其 中 的 任意 & 个 数据 块 就 可 以 恢复 原始 数据 ,其 容错 能 力 为 n 一 k 十 1。 那 么 ,基于 多 副本 
的 备份 技术 要 提供 nn 一 &k 十 1 的 容错 能 力 ,就 必须 另外 创建 n — k +1 个 副本 ,存储 空间 的 开 
销 也 增 大 了 ?7 一 & 十 1 倍 。 纠 删 码 在 不 考虑 其 他 因素 的 情况 下 ,能够 在 一 & 十 1 个 数据 块 失 
效 时 仍然 保持 数据 的 可 用 性 。 两 种 技术 的 存储 开销 、 修 复 帝 宽 和 容错 能 力 如 表 8-1 所 示 。 


表 8-1 两 种 备份 技术 的 对 比 ( 单 位 : 块 ) 


对 比 指标 基于 多 副本 基于 纠 删 码 
存储 开销 k (n—k+1) n 

修复 带宽 1 n 

容错 能 力 n—k+1 n—k+1 


因此 ,基于 多 副本 的 备份 技术 存储 开销 大 ,但 修复 带宽 较 小 ; 而 基于 纠 删 码 的 容错 技术 
能 够 节省 存储 空间 ,但 需要 更 高 的 修复 带宽 。 基 于 纠 删 码 的 备份 技术 实现 复杂 ,修复 成 本 较 
高 ,因此 在 实际 的 分 布 存储 中 应 用 较 少 。 

Weatherspoon 等 人 5 在 基于 P2P 的 分 布 存储 系统 OceanStore 上 采用 了 基于 纠 删 
码 的 容错 技术 ,以 实现 对 归档 数据 进行 备份 ,节省 存储 空间 。 他 们 对 多 副本 和 纠 删 码 的 存储 
开销 进行 对 比 , 当 存 储 系统 中 节点 平均 可 徘 性 为 0.5 时 ,为 了 保证 存储 系统 在 任意 时 候 文件 
的 可 获取 概率 大 于 0. 999 ,基于 多 副本 的 策略 需要 的 存储 开销 是 原始 数据 大 小 的 10 倍 , 而 
纠 删 码 策略 是 原始 数据 大 小 的 2. 49 fir. 

但 是 ,这 种 理论 上 的 理想 状况 在 实际 环境 中 很 难 达 到 ,因为 在 实际 的 云 存 储 中 采用 基于 
纠 删 码 的 备份 技术 时 ,需要 考虑 各 种 特定 的 应 用 背景 和 需求 ,包括 数据 的 访问 模式 、 节 点 的 
负载 均衡 .失效 修复 等 情况 。 

Lin 等 人 经 过 深入 的 研究 发 现 , 纠 删 码 的 优势 并 不 如 想象 的 那么 明显 ,在 节点 可 用 性 
很 低 的 情况 下 , 纠 删 码 的 成 本 甚至 要 高 于 对 整个 文件 进行 复制 的 成 本 。 基 于 纠 删 码 的 容错 
技术 还 有 一 些 内 在 的 缺陷 ,比如 在 下 载 延迟 上 受 限 于 & 个 数据 块 中 的 最 近 副 本 的 最 大 延 
3R ,而 基于 多 副本 的 技术 则 只 需 下 载 最 近 的 副本 。 纠 删 码 也 无 法 直接 读 取 下 载 数据 块 中 的 
一 个 子 块 , 要 获取 某 一 个 子 块 ,必须 下 载 多 个 数据 块 , 青 经 解码 得 到 相应 的 子 块 。 对 于 服务 
天 端的 一 些 诸如 关键 字 搜 索 、 内 容 查找 等 操作 ,也 是 基于 纠 删 码 的 备份 技术 所 无 法 满足 的 。 

Rodrigues && A fg PlanetLab, Overnet 和 Farsite 等 多 个 平台 下 的 实验 模拟 的 研究 结 
果 表 明 , 纠 删 码 的 优势 并 不 是 在 每 个 平台 上 都 能 够 发 挥 出 来 ,在 菜 些 特殊 的 情况 下 ,其 效果 
还 比 不 上 基于 多 副本 的 备份 技术 。 

在 实际 的 云 计 算 环 境 下 ,各 种 云 存 储 平台 回 各 类 应 用 提供 存储 服务 ,比如 Amazon 的 电 
子 商 务 应 用 、Google 的 Web 搜索 应 用 ,这 些 应 用 对 容错 的 要 求 有 所 不 同 。 

基于 多 副本 的 备份 技术 实现 简单 .易于 部 署 ,可 以 提供 更 高 的 访问 效率 ,在 Web 搜索 、 
电子 商务 .在线 社 交 网 络 等 领域 应 用 广泛 ,比如 在 Google 的 GFS, Amazon 公司 的 Dynamo 
和 Facebook AY Cassandra 以 及 Hadoop 的 HDFS 中 都 采用 基于 多 副本 的 备份 技术 提高 系 
统 的 可 用 性 和 可 徘 性 。 并 且 不 同 的 应 用 在 数据 的 组 织 方 式 上 也 有 所 不 同 ,Google 的 GFS 
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采用 元 数据 服务 峰 的 方式 组 织 和 管理 大 量 的 Web 搜索 数据 ; 而 Amazon 的 电子 商务 应 用 
和 Facebook 的 社交 网 站 应 用 中 存储 的 多 是 键 - 值 对 数据 ,因此 它们 均 采 用 一 致 性 哈 硕 的 方 
式 组 织 数据 以 获得 更 高 的 效率 。 在 元 余 块 的 大 小 设置 方面 ,Google AY GFS 选择 了 较 大 的 
64MB 的 数据 块 , 这 样 可 以 减 小 数据 块 的 数量 ,进而 减 小 其 初始 设计 时 单一 元 数据 服务 需 的 
负载 。 

为 了 消除 应 用 的 相关 性 ,Kossmann 等 人 "提出 了 一 种 灵活 的 可 配置 的 模块 化 分 布 存 
储 系 统 Cloudy ,通过 采用 一 种 通用 的 DPI(Deep Packet Inspection ,深度 包 检 测 ) 模 型 表示 数 
据 ,使 得 用 户 能 够 根据 自身 的 需求 修改 模块 和 参数 ,使 之 适应 特定 的 应 用 场景 。 但 是 
Cloudy 仍然 不 能 解决 所 有 问题 ,不 同 的 应 用 仍 需 针 对 应 用 特性 研究 相关 的 技术 ,开发 不 同 
的 模块 。 

Fan 等 人 -通过 对 雅虎 M45 集群 应 用 7 个 月 的 追踪 观察 发 现 ,大 多 数 的 数据 访问 操作 
发 生 在 数据 创建 后 的 较 短 的 一 段 时 间 内 ,因此 他 们 修改 了 HDFS, 使 其 通过 一 个 后 台 进 程 监 
控 写 入 的 数据 块 , 当 数据 块 被 写 人 一 段 时 间 后 通过 用 编码 块 蔡 换 副 本 块 , 采 用 基于 纠 删 码 的 
容错 技术 替换 基于 复制 的 容错 技术 ,来 节省 存储 空间 ,并 在 此 基础 上 测试 了 延迟 编码 的 时 间 
与 带 来 的 性 能 损耗 之 间 的 关系 。 其 结果 表明 , 当 延 人 运 时 间 大 于 1 个 小 时 以 后 ,性 能 的 损耗 几 
平 可 以 忽略 不 计 。 此 时 采用 基于 纠 删 码 的 容错 技术 能 够 有 效 地 降低 存储 开销 ,而 延迟 市 来 
的 磁盘 临时 额外 开销 仅 为 12% 左 右 。 

真正 决定 纠 删 码 编码 性 能 的 因素 包括 : 编码 算法 的 时 间 复 杂 度 和 编码 过 程 中 需要 读 
取 传输 和 写 人 的 数据 量 。 随 着 计算 机 运算 能 力 的 飞速 增长 ,编码 运算 的 速度 已 还 还 超过 数 
据 的 读 取 、 传 输 和 写 人 速度 。 而 影响 数据 读 取 、 传 输 和 写 人 量 的 主要 因素 是 编码 前 数据 的 分 
布 情况 和 采用 的 编码 实现 方法 。 此 外 , 纠 删 码 的 数据 元 余 度 也 对 运算 量 .数据 传输 量 和 写 人 和 人 
量 有 重大 影响 。 宛 余 度 越 高 ,意味 着 有 更 多 的 校 验 数据 需要 产生 、 发 送出 去 并 写 和 人 到 磁 
盘 中 。 

纠 删 码 的 编码 运算 主要 是 有 限 域 上 的 加 法 和 乘法 运算 ,其 中 较为 费时 的 是 乘法 运算 。 
所 以 ,乘法 运算 的 数量 可 以 用 来 表征 编码 算法 的 复杂 度 。 此 外 ,编码 使 用 的 有 限 域 的 大 小 也 
对 运算 时 间 有 很 大 影响 。 随 着 有 限 域 的 增 大 ,乘法 运算 的 复杂 度 呈 指数 级 增长 。 此 外 ,对 于 
较 小 的 有 限 域 , 如 8 位 256 个 元 素 的 有 限 域 ,可 以 将 所 有 可 能 的 乘法 运算 结果 保存 在 内 存 
中 ,用 查 表 的 方法 加 快 乘法 运算 速度 。 目 前 对 于 和 常见 的 参数 ,上 述 各 类 纠 删 码 中 较 优 秀 者 的 
编码 运算 基本 可 以 在 8 位 有 限 域 上 完成 。 

王 意 洁 等 人 "指出 ,传统 MDS 码 的 存储 空间 利用 率 最 高 ,但 是 其 数据 修复 开销 也 最 
大 ,甚至 高 于 其 他 种 类 纠 删 码 数 倍 。 相 比 于 传统 MDS 码 , 分 组 码 能 够 以 较 少 的 额外 存储 空 
间 开 销 为 代价 ,显著 降低 数据 修复 的 成 本 。 分 组 码 也 较 容 易 实 现 ,这 也 是 其 在 大 型 存储 系统 
中 得 到 应 用 的 重要 原因 之 一 。 再 生 码 可 以 极为 有 效 地 降低 数据 修复 开销 ,但 是 再 生 码 的 存 
储 空间 利用 率 明 显 低 于 其 他 类 别 纠 删 码 ,其 存储 空间 利用 率 最 高 也 只 能 达到 50% 左 右 。 所 
以 ,再 生 码 不 适用 于 对 存储 成 本 要 求 较 高 的 大 规模 存储 系统 ,而 适用 于 对 带宽 成 本 极其 敏感 
的 系统 。 例 如 ,可 以 将 再 生 码 用 在 数据 中 心 级 的 数据 容错 中 ,因为 数据 中 心 之 间 的 网 络 带 宽 


182 | 云 存 储 安全 一 一 大 数据 分 析 与 计算 的 基石 


极其 昂 贯 。 
总 之 ,不 同 的 备份 技术 各 有 优 缺 点 ,需要 与 实际 应 用 需求 结合 ,经 过 一 定 的 实际 测试 才 
能 找到 最 适合 的 备份 方案 。 


8.4 数据 恢复 技术 


基于 多 副本 的 备份 技术 的 数据 恢复 过 程 是 比较 容易 实现 的 ,直接 从 任意 可 用 副本 就 可 
以 谈 取 原始 数据 。 大 部 分 的 数据 恢复 技术 集中 在 研究 基于 纠 删 码 的 备份 技术 ,除了 从 纠 删 
码 本 身 厦 手 降低 数据 恢复 的 代价 之 外 ,从 数据 恢复 的 具体 过 程 着 手 , 优 化 恢复 时 的 数据 读 
取 、 传 输 过 程 也 可 以 进一步 提高 数据 恢复 的 效率 。 

传统 的 数据 恢复 方法 通常 采用 星 形 的 数据 传输 方式 ,所 有 数据 提供 节点 和 耳 接 将 数据 发 
送 给 新 生 节 点 ,所 有 参与 恢复 的 节点 构成 一 个 以 新 生 节 点 为 中 心 的 星 形 结构 。 星 形 数 据 恢 
复方 法 简单 直观 ,但 是 中 心 节 点 容易 成 为 性 能 的 瓶颈 。 

现 有 的 数据 恢复 技术 大 部 分 都 是 基于 树 型 数据 修复 方法 ,系统 会 先 构建 履 盖 所 有 参与 
恢复 的 节点 且 以 新 生 节 点 为 根 的 恢复 树 。 在 恢复 过 程 中 , 叶 节 点 先 将 日 己 的 数据 乘 以 相应 
的 系数 ,然后 将 其 回 上 传输 给 目 己 的 父 节 点 ,内 部 节点 收取 其 所 有 子 节 点 发 送 的 数据 并 将 这 
些 数据 和 日 己 的 数据 进行 一 定 的 组 合计 算 , 青 将 计算 结果 传输 给 目 己 的 父 节点 …… 以 此 类 
推 ,直至 最 终 到 达 恢 复 树 的 根 节点 。 根 节点 将 收 到 的 所 有 数据 进行 组 合计 算 后 就 可 以 恢复 
出 失效 数据 。 

根据 恢复 树 构 造 方法 的 不 同 , 现 有 数据 恢复 技术 可 以 分 为 两 大 类 : 一 类 是 市 宽 感 知 的 
数据 恢复 技术 ,这 种 方法 根据 网 络 带 宽 来 构建 恢复 树 ,比如 树 型 恢复 方法 和 星 型 恢复 方法 的 
数据 传输 结构 就 是 基于 带宽 感知 ; 一 类 是 拓扑 感知 的 数据 恢复 技术 ,依据 网 络 拓扑 来 构建 
恢复 树 。 

1. 市 宽 感 知 的 数据 恢复 技术 

2009 年 ,Li 等 全 提出 基于 带宽 感知 的 数据 恢复 技术 。 这 种 方法 主要 考虑 到 大 规模 
分 布 式 系统 往往 是 异 构 的 ,节点 的 性 能 以 及 网 络 带 宽 存 在 差异 ,因此 试图 尽量 利用 网 络 中 的 
高 可 用 带宽 达到 提高 数据 传输 速度 、 缩 短 修复 时 间 的 目的 。 他 们 的 研究 结果 表明 ,采用 以 节 
点 间 可 用 网 络 市 宽 作 为 边 权 重 的 最 大 生成 树 作 为 恢复 树 , 可 以 极 大 地 减少 数据 修复 时 间 。 
相 比 于 星 型 数据 修复 方法 ,市 宽 感 知 的 数据 修复 方法 将 修复 时 间 缩 短 了 一 半 。 

Li 等 人 "又 将 充分 利用 可 用 带宽 的 思想 引入 到 再 生 码 技术 中 ,提出 了 基于 再 生 码 的 树 
型 数据 修复 方法 RCTREE。 为 了 更 加 有 效 地 利用 系统 中 的 可 用 市 宽 , 加 速 多 节点 同时 失效 
情况 下 的 数据 恢复 ,Sun 等 人 -扩展 了 Li 等 人 "的 数据 修复 方法 ,提出 了 一 种 带宽 感知 的 
并 行 数 据 修复 方法 TPR(Tree-structured Parallel Regeneration) 。 当 多 个 节点 同时 失效 时 ， 
TPR 方法 会 以 各 新 生 节 点 为 根 , 分 别 构建 多 个 恢复 树 ,并 行 地 对 失效 节点 进行 恢复 。 

2. 拓扑 感知 的 数据 恢复 技术 

基于 折 扑 感知 的 数据 恢复 技术 的 基本 思想 是 通过 构造 与 物理 拓扑 相符 的 恢复 树 ,来 减 


少数 据 恢 复 时 在 网 络 折 扑 的 高 层 链 路 上 传输 的 数据 量 。 目 前 ,最 篆 见 的 网 络 拓扑 仍然 为 多 
层 的 树 形 结构 ” ,由 下 到 上 依次 为 由 机 架 交 换 机 (Top of Rack, TOR) 组 成 的 边界 层 
(EdgeLayer) 、 由 聚合 交换 机 组 成 的 数据 聚合 层 (Aggregation Layer)、 由 核心 交换 机 和 路 由 
天 组 成 的 核心 层 (Core Layer)。 树 形 网 络 的 突出 问题 是 高 层 的 带宽 往往 非常 紧张 ,目前 部 
署 的 网 络 中 边界 层 的 总 带宽 仍然 为 核心 层 的 4 一 10 倍 "' 。 近 来 有 关 数 据 中 心 网 络 负载 
的 研究 - 均 表 明 ,核心 层 链 路 的 利用 率 是 最 高 的 。 因 此 ,如 果 能 够 有 效 减少 核心 层 的 带 
宽 消 耗 ,将 极 大 地 提高 系统 的 整体 性 能 。 

针对 此 问题 ,Zeng “FA Al Zhang 等 人 "提出 了 拓扑 感知 的 数据 恢复 技术 ,以 降低 数 
据 恢 复 时 占用 的 核心 网 络 带宽 。 这 种 数据 恢复 技术 的 基本 思想 是 ,将 距离 较 近 的 编码 块 (如 
处 于 同一 个 机 柜 中 的 编码 块 ) 先 就 近 组 合 , 然 后 青 发 送 到 更 远 的 市 点 进行 进一步 的 组 合 , 直 
至 最 终 汇 人 新 生 节 点 。 这 样 就 可 以 逐步 减少 在 网 络 折 扑 高 层 中 传输 的 数据 量 , 降 低 核 心计 
宽 消 耗 , 从 而 提高 数据 修复 效率 ,并 降低 数据 修复 对 整个 系统 性 能 造成 的 不 良 影响 。 他 们 的 
研究 结果 表明 ,基于 拓扑 感知 的 树 形 数据 恢复 方法 能 够 有 效 降 低 网 络 拓扑 中 高 层 的 数据 传 
输 量 。 

基于 带宽 感知 的 数据 恢复 技术 虽然 在 理论 上 非常 吸引 人 ,但 是 存在 难以 克服 的 缺点 。 
首先 ,分 布 式 系统 中 节点 间 的 带宽 是 实时 动态 变化 的 ,对 带宽 的 测试 成 本 高 且 难 以 获得 精确 
的 结果 ; 其 次 ,该 类 技术 只 是 将 数据 传输 导 回 到 较 快 的 链 路 ,并 没有 降低 数据 恢复 的 负载 ， 
所 以 不 能 有 效 提升 总 体 的 数据 恢复 效率 。 此 外 ,很 多 研究 工作 涉及 的 网 络 模型 也 与 实际 网 
络 不 太 相符 。 相 对 而 言 ,基于 拓扑 感知 的 数据 恢复 技术 更 加 具有 可 操作 性 。 但 是 ,该 方法 需 
要 由 交换 机 来 完成 恢复 过 程 中 的 数据 合并 ,交换 机 需要 文 持 数据 运算 ,也 需要 设计 专门 的 底 
层 通信 协议 ,因此 限制 了 基于 拓扑 感知 的 数据 恢复 技术 在 实际 系统 中 的 应 用 。 


8.5 其 他 相关 研究 


除了 以 上 介绍 的 数据 备份 与 恢复 技术 ,还 需要 研究 数据 更 新 时 的 更 新 策略 、 备 份 数据 时 
怎样 去 元 余 而 不 损害 数据 的 容错 能 力 等 相关 问题 。 

基于 多 副本 的 备份 技术 中 ,数据 更 新 需要 对 所 有 副本 进行 更 新 ,可 以 采取 只 更 新 修改 的 
数据 块 的 策略 。 基 于 纠 删 码 的 备份 方案 中 ,一 个 数据 块 关 联 着 较 多 的 校 验 块 , 导 致 数据 更 新 
时 需要 同时 更 新 较 多 的 块 , 不 仅 需 要 大 量 的 数据 传输 和 写 和 人 ,也 使 保持 数据 的 一 致 性 面临 挑 
战 。 依 据 更 新 方式 ,可 将 现 有 纠 删 码 容错 技术 中 的 数据 更 新 方法 分 为 3 种 : 替换 式 更 新 方 
法 、 追 加 式 更 新 方法 和 混合 式 更 新 方法 。 关 于 纠 删 码 的 研究 工作 可 以 参考 文献 L391]。 

在 数据 备份 领域 ,元 余数 据 是 海量 的 。 为 了 节省 存储 资源 ,备份 数据 去 元 也 是 一 个 研究 
Th OTT 。 为 了 进一步 说 明 消除 元 余数 据 的 重要 性 , 夏 文博 士 在 其 博士 学 位 论文 "中 给 出 
了 主流 的 存储 研究 机 构 ( 微 软 .EMC、IBM 等 ) 公 布 的 真实 存储 系统 中 的 宛 余 数据 负载 ,如 
X 8-2 所 示 。 
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X 8-2 主流 研究 机 构 公 布 的 大 规模 存储 系统 中 的 元 余数 据 负 载 


用 户 内 文件 级 去 重 约 21% 
HEA SKB 块 级 去 重 约 42% 
" APA 8KB 块 级 去 重 
WA | Mops 用 户 间 文 件 级 去 重 th 50% 
用 户 间 8KB 块 级 去 重 24 68% 
文件 级 去 重 0—16 95 
" ts 
15 个 MS 服务 器 文件 系统 6.8TB TTET EET 
约 1 万 个 商用 备份 存储 T 8KB 块 级 去 重 69%~93% 
系统 8KB 块 级 去 重 8596 —97 945 


EMC 
差 量 压缩 (去 重 后 ) 66% ~82% 
" Es i cs 
DUE ee GZIP 压缩 (去 重 后 ) 7496 — 8796 
re : 
FARK nied FN ET 8KB 块 级 去 重 2095 — 3096 
个 个 


微软 研究 院 于 2011 年 公布 了 其 收集 的 将 近 900 个 用 户 桌 面 文件 系统 的 元 余数 据 负 
BE) ,其 中 个 人 的 文件 系统 中 平均 存在 着 约 40% 的 重复 数据 ,用 户 之 间 共 享 的 重复 数据 也 
高 达 68% ,数据 块 级 去 重 往往 比 文件 级 去 重 多 找到 约 20% 的 重复 数据 。 微 软 研 究 院 于 
2012 年 公布 的 微软 桌面 服务 器 文件 系统 的 宛 余数 据 负载 "显示 ,微软 服务 器 文件 系统 中 
的 元 余数 据 更 为 丰富 ,为 15% 一 90% 。 基 于 这 一 观察 ,微软 公司 在 2012 年 推出 的 Window 
Server 8 产品 中 添加 了 数据 去 重 功能 来 提高 存储 效率 "7”。 

EMC 数据 备份 研究 团队 于 2012 年 公布 了 约 1 万 个 商用 备份 存储 系统 的 宛 余数 据 负 
载 ' ,结果 显示 备份 系统 中 的 元 余数 据 更 为 丰富 ,数据 去 重 技术 消除 的 元 余数 据 平 均 高 达 
80% 以 上 ,这 就 意味 着 可 以 帮助 用 户 节省 4/5 的 存储 空间 。 此 外 , 差 量 压 缩 技 术 和 传统 的 不 
缩 技术 (GZIP") 则 进一步 消除 了 数据 去 重 后 的 元 余数 据 * 。 德 国美 因 茨 大 学 (全 称 : 德 
国美 因 区 约翰 内 斯 - 古 腾 堡 大 学 , Johannes Gutenberg-University Mainz. Germany ) 也 于 
2012 年 公布 了 其 调查 的 欧洲 4 个 高 性 能 计算 数据 中 心 的 元 余数 据 负 载 ”" ,其 结果 显示 重复 
数据 在 科学 计算 这 种 数据 中 心 场合 也 占有 20% 一 30% 的 比例 。 此 外 ,IBM 研究 院 于 2013 
年 公布 的 研究 数据 "还 表明 传统 的 经 典 压 缩 技术 DEALATEUU (联合 了 哈弗 曼 编 码 与 
字典 编码 的 压缩 算法 ) 也 可 以 节省 18% 一 53%% 的 存储 空间 。 

上 述 各 大 研究 机 构 公 布 的 数据 表明 ,现在 的 大 规模 的 存储 系统 中 广泛 地 存在 元 余数 据 。 
因此 ,有 效 地 消除 存储 系统 中 的 宛 余数 据 有 着 极 大 的 应 用 价值 。 

目前 ,常用 的 元 余数 据 消 除 技 术 包 括 了 传统 的 无 损 数据 压缩 技术 "有 损 数据 压缩 
TRUM 、 差 量 压缩 技术 ”| 数据 去 重 技术 "J 等 。 数据 去 重 技术 (Data Deduplication ,重复 
数据 删除 ) 是 一 种 通过 大 规模 地 (比如 文件 级 、8KB 大 小 的 数据 块 级 ) 识 别 和 消除 元 余数 据 ， 
从 而 降低 数据 存储 成 本 的 重要 技术 "“” 。 数 据 去 重 技 术 相 对 于 传统 的 压缩 技术 而 言 ,元 余 


微软 
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消除 的 粒度 更 大 ,速度 也 更 快 。 由 于 该 项 技术 迎合 了 数据 规模 的 爆炸 式 增长 的 趋势 ,满足 了 
用 户 对 宛 余 数据 删除 的 吞吐 率 的 需求 ,所 以 不 管 是 学 术 研 究 机 构 , 还 是 各 大 存储 厂商 ,都 非 
常 看 好 数据 去 重 技 术 的 发 展 前 景 。 此 外 , 差 量 压缩 技术 作为 一 种 针对 相似 数据 的 压缩 技术 ， 
可 以 通过 计算 相似 数据 的 修改 部 分 ( 差 量 ) 来 消除 数据 元 余 。 由 于 数据 去 重 技术 只 能 识别 完 
全 重复 的 数据 ,而 差 量 压缩 能 够 有 效 地 识别 并 消除 非 重 复 但 是 相似 数据 中 的 元 余 , 所 以 差 量 
压缩 作为 数据 去 重 的 一 种 补充 的 压缩 技术 ,在 近 几 年 也 引起 了 广泛 的 关注 。 

Li 等 ”和 Xia SEO" 均 提 出 先 采 取 一 种 粗 粒度 的 方法 对 数据 进行 预 处 理 ,然后 采取 另 
外 一 种 细 粒 度 的 方法 对 数据 进行 处 理 , 从 而 混合 不 同 的 去 元 余 方法 提高 系统 性 能 。 关 于 重 
复数 据 删 除 的 相关 研究 工作 可 以 参考 文献 [93,94]。 


8.6 举例 : 基于 喷 录 码 的 数据 备份 与 恢复 


以 上 各 节 对 数据 备份 与 恢复 技术 做 了 介绍 ,本章 将 引用 一 个 数据 备份 与 恢复 系统 作为 
实例 对 以 上 技术 进行 前 述 。 该 实例 来 源 于 作者 之 前 的 研究 工作 ”“”” 。 该 项 研究 工作 以 喷 
果 码 作为 数据 编码 技术 对 原始 数据 进行 编码 ,详细 说 明 当 发 生 数 据 失 效 时 ,如 何 定位 失效 位 
置 ,如 何 对 数据 进行 恢复 ,并 对 数据 恢复 的 效率 进行 分 析 。 

喷 果 人 码 是 一 种 无 固定 码 率 的 线性 码 ,假定 原来 有 AR 个 数据 分 组 ,那么 将 这 个 数据 分 
组 通过 线性 变换 组 成 个 数据 分 组 ,再 从 个 数据 分 组 中 任 取 k'(k' 三 k) 个 数据 分 组 将 必 
能 得 到 原始 & 个 数据 分 组 。 噶 果 码 具备 分 布 式 存储 的 特点 ,但 是 噶 果 码 在 GF(2) 上 构造 的 
生成 矩阵 可 逆 性 低 , 因 而 导致 译 码 复杂 度 非 第 高。 通常 ,可 以 通过 增加 生成 矩阵 G 的 位 长 
保证 G 中 任意 & 阶 方 阵 可 逆 。 由 文献 [98] 定 理 1,2 可 知 , 当 二 100 H g 二 2”, 那 么 k 阶 方 
阵 非 奇 异 的 概率 p 途 10“。 此 类 方法 存在 的 缺点 是 ,一 旦 数据 存在 少量 算 改 ,其 译 码 效率 会 
大 大 降低 。 

下 面 将 从 编码 方法 .错误 检测 方法 和 数据 恢复 等 方面 对 该 系统 进行 介绍 。 


8.6.1 基于 噶 果 码 的 编码 方法 


该 数据 备份 系统 假定 用 户 的 数据 以 文件 方式 存储 。 在 数据 编码 阶段 ,首先 将 文件 F 分 
制 成 数据 块 Di Ds. D, ,然后 逐次 对 原始 数据 块 D; 利用 扩展 密 钥 (p ,g) 转 换 成 相应 的 
扩展 信息 预 编 码 块 X; ,并 经 过 生成 矩阵 G 编码 成 码 元 C; (C; SXG). PERO ERE P RI 
C, 中 的 任意 2 列 组 成 译 码 元 Q ,经 恢复 矩阵 己 可 得 到 相应 的 信息 元 D;(CD;=COP ". 

fr D,x1Gix4—C»x 4H. G Wit. D—CG !, 5 G JJ kx n WEEP n RH, 
D, xaGixs =Csxs sD= (D1, D23 Di),D;= (dasdi sdim) G= Gis Gi 0, 
G;—(gusgn»' gu) € (Cir CC Ci; m Ceu cu» se —dagy + 
di;go; Ht +d img m 因此 在 C 中 任 取 k 列 组 成 译 码 元 8, 在 G 中 取 相 应 的 & 9128 PES gE 
E Pix REP 可逆, 就 有 DD 一 QP '. 

当前 面临 的 主要 问题 是 如 何 使 生成 矩阵 G "P FENCE 列 所 组 成 的 恢复 和 矩阵 P npys, $5 
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M 32 4R [Ve C Vander Monde Matrix) 即 满足 任意 & 列 所 组 成 的 方 阵 可 逆 , 只 要 满足 初始 生成 
JCA FA BDAY. d V—(2,.2;,77,2,2:235a;70,2€ (1,2, 2) , Ha; a; GE): MAS 


Qa) a> Q n 

1 1 1 

G Q 1 Qe Q n 
k—1 k—1 k—1 

Q 1 QA» eee Q n 


因此 有 任意 的 & 列 所 组 成 的 方 阵 可 逆 。 并 且 理 论 上 只 要 有 & 足够 大 ,就 能 对 任意 大 的 文件 进 
行 编码 。 但 是 随 着 & 的 增 大 ,a; 的 值 呈 指数 增长 ,因此 生成 矩阵 所 占用 的 空间 将 变 得 越 来 
越 大 ,所 需要 存储 的 位 也 越 来 越 多 。 而 在 实际 应 用 时 ,为 了 保证 足够 的 元 余 , 整 个 生成 矩阵 
G 的 行 数 不 可 能 无 限制 地 增长 。 

M a, =2,k =8 时 ,ai 需要 8bits 的 存储 空间 。 假 定 存储 位 为 8 位 ,那么 当 a; 关 a; ,a;， 
a, € Z^ ,k=4 hf, n <6; 当 上 ==3 时 ,n 三 15; 4R=2 时 ,nn 三 255。 因 此 在 不 超过 8 位 的 情 
况 下 , 范 德 蒙 矩阵 最 大 的 可 选 维 数 分 别 为 4X6.3X15 和 2X255。 鉴 于 宛 余 量 的 考虑 ,本 文 
生成 矩阵 G 的 行 数 设 为 2。 

由 于 恢复 矩阵 王 只 能 为 2X2 的 方 阵 , 所 以 要 使 D... 能 够 得 到 恢复 ,那么 D 中 的 列 
c—2.H G,., "FÍT k—2. Dd Wo XE D 进行 线性 扩展 ,使 得 D mH D, REN D paro KX 
考虑 到 d 二 2, 如 果 选 择 生成 矩阵 的 行 值 &* 过 大 ,日 要 在 & 行 中 构造 任意 的 d 阶 方 阵 可 逆 , 则 
会 导致 扩展 位 构造 过 于 复杂 。 由 于 二 进 制 中 位 长 为 3 且 不 为 零 问 量 的 个 数 为 7, 因 此 选择 
k=3.n=7 构建 任意 2 阶 可 逆 和 矩阵 。 本 文 使 用 线性 扩展 将 信息 元 D 扩展 成 预 编码 块 和 X, 扩 
展 方法 如 下 。 

H+ D=(D,.D,) BRAD EA itp x= (X,.X,,.X;). KPA X, =D, 
X,—D;.X,—pDi-tqD;.p.q AD ESA. G=(G,,G..G;)', HT XG=C, RHS R= 
(G,+pG;.G,+qG;)° ,因此 XG=C 相应 地 可 转化 为 DR —C. EC 中 任 取 线性 无 关 的 两 
列 组 成 译 码 元 8, 同时 在 R 中 取 相 应 的 两 列 组 成 恢复 矩阵 己 , 当 恢复 矩阵 下 可 逆 则 有 三 
QP ”。 要 使 恢复 矩阵 己 可 逆 , 扩 展 密 钥 p.q 必须 具备 何 种 条 件 , 下 面 将 对 此 进行 分 析 。 

^ D-—(a,.a;).2a,— pai qa; ,那么 了 可 扩展 为 四。 令 导 一 (al ,ay yas ) 


0 0 O 1 1 1 1 
G — ] 1 0 0 1 1 
1 O 10 1 0 1 


任 取 G 'PPAUJ id VE T 


因为 XG 二 C, 所 以 有 XT—-9.0—(9.0, H OCC. M 
H + pas b, M 
a» - qaa 6,+4qb; 
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DP 王 Q。 因 此 只 要 己 可 逆 , 根 据 也 =COP ” 便 可 得 到 D。 由 于 
b 0 p 1 1l+p 1 1+ 6 

, ] 1-cq O q 1 S 
日 PCR, 所 以 要 求 R 中 任意 两 列 可 逆 , 即 任意 两 列 所 组 成 的 行列 式 不 为 0。 所 以 ,要 同时 满 
是 {pp 关 0,g 关 0,p 关 q,p 关 一 1,g 关 一 1,p 十 gq 关 一 1,p 关 q 十 1,g 关 pp 十 1}。 因 此 当 p,g€2 7， 
ip 一 gq| 宇 2 时 ,R 中 任意 2 阶 方 阵 可 逆 。 

首先 将 原始 数据 D. 经 扩展 密 钥 (p qd FES Fl il Fa FR Xs ,然后 将 预 编 码 块 X 
Zt 2g ABE Gx: 编码 得 到 码 元 C, ,最 后 将 码 元 C 与 生成 矩阵 G 按照 列 对 应 进行 组 合 , 记 
为 码 块 。 其 编码 过 程 如 图 8-4 所 示 。 从 码 块 中 任 取 2 列 ( 比 如 选取 第 2 列 和 第 5 列 ) 分 别 组 
成 译 码 元 8 与 恢复 矩阵 P, 由 DSP” 即 译 码 公 式 得 到 原始 数据 D 。 因 为 G 是 公开 存在 
且 已 知 的 ,所 以 实际 上 我 们 只 需 将 编码 码 元 C 按 编 号 存储 即 可 。 相 应 的 理想 译 码 过 程 如 
图 8-5 所 示 。 


block2 . block5 


图 8-4 数据 扩展 及 编码 图 8-5 数据 转换 及 译 码 


用 户 存 储 数据 时 ,随机 生成 符合 条 件 的 扩展 密 钥 对 数据 进行 编码 ,然后 销毁 扩展 密 钥 。 
当 用 户 需 要 从 服务 瑚 还 原 数 据 时 ,必须 输入 存储 过 程 中 用 到 的 扩展 密 钥 ,同时 设 定 输入 扩展 
密 钥 的 上 限 次 数 。 如 果 在 允许 次 数 内 没有 正确 地 输入 扩展 密 钥 ,那么 认为 此 用 户 并 非 原 数 
据 拥 有 者 ,因此 锁定 其 数据 并 茶 止 其 译 码 ,从 而 达到 保护 用 户 数据 隐私 的 目的 。 


8.6.2 错误 检测 方法 


数据 进行 编码 存储 ,在 读 取 数据 时 ,怎样 发 现 数据 是 否 错误 是 一 件 极其 重要 的 事情 。 在 
对 数据 以 基于 喷 果 码 的 方法 进行 编码 后 ,将 采用 以 下 方法 进行 错误 检测 。 
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假定 编码 前 的 原始 数据 D 是 完整 无 误 的 ,那么 其 相应 的 预 编码 关 也 是 正确 的 。 因 此 ， 
只 考虑 编码 后 的 数据 发 生 错误 的 情况 。 在 本 方案 中 ,CG 是 可 以 公开 存放 的 ,因此 发 生 错 误 的 
只 可 能 是 码 元 C, 

假设 码 元 C 发 生 错 误 , 且 假设 AC 为 错误 部 分 ,错误 的 码 元 记 为 C =C, HA Q= 
(C;.C;) EP ij € (O2, 7, C4 C 中 第 i 行 发 生 错误 时 ,那么 相应 地 有 O 中 第 i 行 也 
发 生 错 误 ,AQ AQ 中 所 包含 的 错误 部 分 , 记 错 误 的 Q' SQAQ ,其 译 码 过 程 如 图 8-6 所 
m. D* =Q* P'=(Q+AQ)P '=D+AD(E# AD 为 译 码 过 程 中 所 包含 的 错误 信息 )， 
因此 译 码 得 到 的 数据 D' 所 包含 的 个 块 在 第 i 个 元 素 均 发 生 错误 。 因 为 不 能 得 知 译 码 结 
果 是 否 正确 ( 即 是 否 译 码 得 到 原始 数据 DO ,所 以 错误 检测 显得 非常 重要 。 

错误 检测 分 成 初次 检测 与 逆向 检测 两 步 ,如 图 8-7 所 示 。 初 次 检测 只 对 P 进行 检测 ,其 
原理 如 下 : 由 于 XG=C ,并 且 G 中 任意 2 列 线性 无 关 , 因 此 从 编码 块 中 任 取 2 列 ,其 中 

P—OGRO. O=); ixi Hige€.:2;"5D0 


block2 . block5 


K 8-6 仅 译 码 元 8 发 生 算 改 的 译 码 结果 8-7 ” 算 改 检测 原理 


理想 情况 下 译 码 矩阵 P 绝对 可 逆 , 因 此 首先 对 P 进行 可 逆 检 测 。 如 果 P np. 
P 中 存在 算 改 ( 即 p ,g 不 正确 ); 否则 实行 逆向 检测 。 

逆向 检测 原理 : 理想 情况 下 OP = 也 ,由 于 未 经 检测 不 知道 译 码 结果 是 否 准 确 , 因 此 
假设 OP ' —A ,再 从 该 编码 块 中 取 不 同 于 译 码 元 的 8 中 任意 一 列 编码 信息 分 别 组 成 校 验 元 
B 和 二 次 生成 元 S ,其 中 

S—R,.B—C,. k € (1.2,-,0 HR, £P. C, EO 

利用 ASST 得 到 逆 元 T; 比较 逆 元 了 与 校 验 元 吾 , 如 果 TAB AIRBASE PUA 

在 错误 ,否则 认为 没有 错误 , 即 译 人 码 成 功 。 
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那么 错误 检测 的 准确 率 能 否 满足 要 求 ? 下 面 将 对 此 进行 分 析 。 

在 错误 检测 过 程 中 存在 4 种 情况 : 正确 的 肯定 、 正 确 的 否定 、 错 误 的 肯定 和 错误 的 否 
定 。 其 中 误 码 是 发 生 在 正确 的 否定 和 错误 的 肯定 两 种 情况 下 。 

为 了 便于 分 析 ,我 们 将 矩 阵 校 验 过 程 看 成 一 个 长 度 为 n 的 组 合 中 随机 抽样 的 过 程 , 即 
Mon WS PRR A 个 码 字 完成 校 验 ,排列 中 的 每 个 元 素 有 2" 个 值 可 取 , 即 码 字 的 值 的 集 
合 个 数 g 二 2"。 从 有 ee 个 错误 元 素 的 组 合 n 中 取出 的 & 十 1 个 元 素 组 成 的 排列 完全 正确 的 概 
YP, ,取出 k& 十 1 个 元 素 组 成 的 排列 有 m 个 错误 的 概率 为 了 ,那么 P,,P; 分 别 如 公 
式 (8-1) 和 公式 (8-2) 所 示 。 


p 

I (Ct (8-1) 
CT Cem 

E. ("Mc (8-2) 


假定 x 代表 译 码 信息 ,C 代表 码 元 ,那么 p(x 1C) 表 示 译 码 信 息 x 属于 码 元 C 的 概率 ; 
相反 的 有 1 一 p(x1C) 表 示 译 码 信 息 x 不 属于 码 元 C 的 概率 。 译 码 信息 D' 与 信息 元 D 的 
差距 记 作 AQ. BI AQ—D' —D,4 AQ=0 时 认为 译 码 无 误 , 否 则 认为 译 码 有 误 。 因 此 ,在 检 
验 正确 的 条 件 下 被 判定 为 错误 的 概率 P,,。 和 在 校 验 错误 的 条 件 下 被 判定 为 正确 的 概率 ， 
P 4, 则 可 分 别 表 示 为 : PL =P, {AQ A#O|D=QP fl P4, —P,(^Q—0lD'—Q'P >), 

当 挑 选 k 十 1 个 元 素 完 全 正确 但 检测 为 错误 的 概率 P uuu A BEXER] E17 7628 PA m 
个 错误 元 素 却 被 检测 正确 的 概率 P uu, 的 计算 公式 分 别 如 公式 (8-3) 与 公式 (8-4) 所 示 。 


1 | 
LI as expen (8-3) 
q 

Pem A o O (8-4) 

f" oS X(q—1)" 

因此 误 检 测 的 概率 已 满足 公式 (8-5)。 
k+1 
PP =P, X P meg t+ Pm XR E x (1— 1/4 ) 十 
min {e,k+1 } ‘Pree Gehl 1 

Er mm 4m (8-5) 

m=1 C, Cr+ (q m 1) 


在 给 定 q 的 条 件 下 ,运用 Matlab 分 析 参 数 n,k 及 e MP. 的 影响 (以 下 数据 均 是 当 g= 
256 时 通过 计算 得 到 的 )。 当 抽样 数据 量 & 一 定时 , 误 检 测 概 率 已 。 与 算 改 数据 量 e 及 总 数 
Hn 的 关系 如 图 8-8 所 示 。 由 图 8-8 TA, k e 一 定时 , 误 检 测 概率 与 成 正比 ; k, 
n 一 定时 , 误 检测 概率 与 e 成 反比 。 

在 算 改 数据 量 。 不 变 的 条 件 下 , 误 检 测 概率 Pu 与 抽样 数据 量 & 及 总 数据 量 的 关系 
如 图 8-9 所 示 。 由 图 8-9 可 知 ,在 e、k 一 定时 ,P 与 n 的 大 小 成 正比 ; 3 e,n 一 定时 ,P。 
与 & 成 反比 。 
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在 抽样 数据 量 (k+1) 一 定时 ， 误 检测 概率 (P,,) 
与 算 改 数据 量 (n) 及 总 数据 量 (n) 的 关系 
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g 单位 / 列 
得 改 数据 量 (e) 单位 / 列 
(a) 左 视图 


8-8 上 为 常量 时 P, 


在 得 改 数据 量 (e) 一 定时 ， 误 检测 概率 (P。) 
与 总 数据 量 (n) 及 抽样 数据 量 (k+1) 的 关系 


误 检 测 概率 (P。,) 


10 单位 / 列 


抽样 的 列 数据 量 (k+1) 单位 / 列 
(a) 左 视 图 


8-9 


总 数据 量 (n) 总 数据 量 (7) AA AAAS 


在 抽样 数据 量 (t+1) 一 定时 ， 
与 自 改 数据 量 (n) 及 总 数据 量 (n) 的 关系 
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与 n、e 的 关系 
在 算 改 数据 量 (e) 一 定时 ， 误 检测 概率 (P,,) 


与 总 数据 量 (n) 及 抽样 数据 量 (k+1) 的 关系 
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单位 / 列 oo pe — OE 
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抽样 的 列 数据 量 (K+1) 单位 / 列 
(b) AMR 


e 为 常量 时 P。, 与 n、k 的 关系 


误 检 测 概率 (P,,) 


上 
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在 总 数据 量 ”不 变 的 条 件 下 , 误 检测 概率 P. 与 抽样 数据 量 k& RAMA He 的 关系 
如 图 8-10 所 示 。 由 图 8-10 可 知 , 在 n、e 定时 ,P, Gk MRE; 在 n、k 一 定时 ,P, 5 e 成 


反比 。 


在 总 数据 量 (n) 一 定时 ， 误 检测 概率 (P。,) 
与 自 改 数据 量 (e) 及 抽样 数据 量 (K+1) 的 关系 
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误 检 测 概率 (P。) 
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单位 / 列 算 改 数据 量 (e) 单位 / 列 


(a) 左 视图 


在 总 数据 量 (n) 一 定时 ， 误 检测 概率 (P,,) 
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8-10 n PÆN P, 与 e 的 关系 


M] —5.e—2.n—9.q—256 时 ,根据 公式 (8-5) 有 误 检 测 的 概率 为 0. 083661。 根 据 对 
公式 (8-5) 的 分 析 可 知 ,n,k,e 5 P, 的 关系 如 表 8-3 所 示 。 因 此 可 以 根据 表 8-3 各 参数 与 
误 检测 概率 的 关系 来 设 定 参 数 nk 的 值 ,以 提高 检测 准确 率 。 

表 8-3 n,k,e MP, 的 关系 


给 定 条 件 
nok 为 常量 的 条 件 下 
nse 为 常量 的 条 件 下 
kse 为 常量 的 条 件 下 


P 与 第 三 个 变量 的 关系 
反比 
反比 
正比 


只 要 编码 n 足够 大 ,就 可 以 使 误 检 测 概 率 降 低 到 所 设 定 的 额定 指标 (Ps 二 1.0X10 7), 


从 而 达到 检 错 要 求 。 
8.6.3 数据 恢复 方法 


错误 检测 的 目标 是 进行 数据 恢复 。 在 本 方案 中 ,错误 只 发 生 在 编码 后 的 数据 块 C 中 ， 
因此 只 需 利 用 该 码 块 内 的 码 元 C 和 生成 矩阵 G 进行 译 码 , 当 码 元 C 中 的 自 改 列 数 m 夺 4, 该 


码 块 所 包含 原始 数据 D 便 能 得 到 恢复 。 
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假定 编码 数据 块 的 数量 为 number_block,ratio 为 算 改 比例 ,错误 数据 块 的 数量 为 
number,m 为 码 块 的 行 数 ,flag 标记 译 码 状态 , 当 flag(h)=0 表示 码 块 中 第 行 译 码 有 误 ， 
flag(k) —1 MERE k 行 译 码 成 功 。check 为 状态 校 验 元 ,只 有 当 译 码 状 态 标记 flag 与 
check 完全 一 致 时 , 才 认 为 译 人 码 成 功 ( 通 过 flag 与 check 按 位 与 来 验证 flag 与 check 是 否 相 
等 )。 块 搜索 算法 (Block Search Algorithm,BSA) 如 下 。 


算法 : Block Searching Algorithm 


Ratio=preDesign, number-number blockxratio, 
check-ones( ln), N=35, m-pre row 
for i=] to number 
flag = zeros(1, m) 
for j=l to N 
在 第 ; 企 编码 块 Ci 中 提取 诺 码 矩阵 CQ， 并 根据 2 的 列 标号 相应 地 取 户 
if P Tfi% 
根据 QiP- =A RPS CA): 并 在 Ci 中 选取 任意 一 列 不 属于 译 码 元 的 
Q; 作为 校 验 元 召 ， 并 在 诺 码 矩阵 中 取 与 吾 列 标号 相同 的 列 信息 作为 
二 次 生成 元 $5， 册 利用 4A5= 工 得 到 逆 元 Ti; 比较 逆 元 TT 与 校 验 元 B， 
进行 逆向 检测 
for k=|to m 
if T(k)-—B(k) 
R(k)=A(k) 
flag(1, k)-l 
if flag&check==check 
| part File(/)-R, break 


要 得 到 原始 数据 ,必须 对 各 个 子 码 块 逐 块 进行 诺 码 。 首 先 在 子 码 块 中 提取 恢复 矩阵 
P, ,如 果 恢 复 和 矩阵 P; 可 逆 , 则 利用 第 i 个子 码 块 中 相应 的 译 码 元 0; 并 根据 0Q;P; =A; 求 
解 信息 元 A;; 并 在 子 码 块 i 中 选取 不 属于 译 码 元 的 Q; 作为 校 验 元 B ,在 译 码 矩阵 中 取 与 B 
列 标号 相同 的 列 信息 作为 二 次 生成 元 $, 青 利用 A;S 二 T; 得 到 逆 元 T;; RWC T; 与 校 验 
元 B ,进行 重 构 检测 ; 如 果 TOR) — B GO ,将 A(k) 中 的 信息 存储 到 R(k) 中 , 当 R 存储 满 则 
译 码 成 功 ( 即 译 码 状态 标记 flag 与 状态 校 验 元 check 完全 一 致 ) ,否则 直到 码 块 i 中 取 到 所 
有 恢复 矩阵 中 的 P;s 与 译 码 元 Qu (由 于 从 7 中 选择 3 个 数 的 组 合 为 35, 因 此 每 个 数据 块 的 
最 大 搜索 次 数 N = 二 35。 当 文件 比较 大 时 ,需要 译 码 的 数据 块 增加 ,但 由 于 块 间 信息 相互 独 
xL. ,因此 译 码 呈 线 性 增长 ) ,如 果 仍 不 成 功 则 表明 译 码 失败 。 


8.7 RENE 


本 草 介 绍 了 云 存储 系统 中 的 数据 备份 与 恢复 技术 。 因 为 云 存储 与 分 布 式 存 储 系 统 中 的 
备份 与 恢复 技术 差异 较 小 ,所 以 介绍 的 这 些 内 容 也 都 是 分 布 式 存储 系统 下 的 人 研究 工作 。 首 
先 对 备份 系统 分 类 与 性 能 指标 进行 了 概述 ; 然后 介绍 了 纠 删 码 技术 的 原理 和 发 展 , 介 绍 了 了 
基于 多 副本 与 基于 纠 删 码 的 备份 技术 及 其 对 比 , 简 单 介绍 了 数据 恢复 技术 及 一 些 相 关 研 究 


工作 ; 最 后 以 一 个 基于 喷 果 人 码 的 数据 备份 与 恢复 系统 为 例 前 述 了 一 个 完整 的 数据 备份 与 恢 
E LE. 
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大 数据 时 代 的 云 存储 安全 


中 国 工程 院 李 国 杰 院士 在 接受 《湖北 日 报 ) 记 者 采访 时 表示 :“ 数 据 是 与 物质 、 能 源 一 样 
重要 的 战略 资源 ,数据 的 采集 和 分 析 涉 及 每 一 个 行业 ,是 带 有 全 局 性 和 战略 性 的 技术 。 战 争 
可 能 从 过 去 的 靠 子 弹 和 导弹 发 展 到 靠 数 据 决 胜 的 时 代 。?” 

网 上 有 一 段 非 常 流行 的 有 关 “ 下 怖 的 大 数据 ?的 幽默 段子 : 

某 必 胜 客 店 的 电话 铃 响 了 ,客服 人 员 拿 起 电话 。 

客服 : 必胜客 。 您 好 ,请 问 有 什么 需要 我 为 您 服务 ? 

顾客 : 你 好 ,我 想 要 一 份 …… 

客服 : 先生 ,烦请 先 把 您 的 会 员 卡 号 告诉 我 。 

顾客 : 16846146 xxx 

客服 : 陈 先生 ,您 好 ! 您 是 住 在 泉州 路 一 号 12 楼 1205 室 , 您 家 电话 是 2624 xxx ,您 公 
司 电 话 是 4666 xxx ,您 手机 号 是 1391234 xxxx 。 请 问 您 想 用 哪 一 个 电话 付费 ? 

顾客 : 你 为 什么 知道 我 所 有 的 电话 号 码 ? 

客服 : 陈 先生 ,因为 我 们 联机 到 CRM 系统 。 

顾客 : 我 想 要 一 份 海鲜 比萨 .…… 

客服 : 陈 先 生 ,海鲜 比萨 不 适合 您 。 

顾客 : 为 什么 ? 

客服 ; 根据 您 的 医疗 记录 ,您 的 血压 和 胆固醇 都 偏 高 。 

客服 : 您 可 以 试 试 我 们 的 低 脂 健 康 比 萨 。 

顾客 : 你 怎么 知道 我 会 喜欢 吃 这 种 的 ? 

客服 : 您 上 星期 一 在 国家 图 书馆 借 了 一 本 《 低 脂 健康 食谱 》。 

顾客 : 好 。 那 我 要 一 份 家 庭 特 大 号 比萨 ,要 付 多 少 钱 ? 

客服 : 99 元 ,这 个 足够 您 一 家 六 口吃 了 。 但 您 母亲 应 该 少 吃 ,她 上 个 月 刚 做 了 心脏 搭 
桥 手 术 , 还 处 在 恢复 期 。 

顾客 : 那 可 以 刷卡 吗 ? 

客服 : 陈 先 生 , 对 不 起 。 请 您 付 现 款 ,因为 您 的 信用 卡 已 经 刷 爆 了 ,您 现在 还 欠 银 行 
4807 元 ,而 且 还 不 包括 房贷 利息 。 
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顾客 : 那 我 先 去 附近 的 提 款 机 提 款 。 

客服 : 陈 先生 ,根据 您 的 记录 ,您 已 经 超过 今日 提 款 限额 。 

顾客 : 算 了 ,你 们 直接 把 比萨 送 到 我 家 吧 , 家 里 有 现金 。 你 们 多 久 送 到 ? 

客服 : K 30 分 钟 。 如 果 您 不 想 等 ,可 以 自己 骑 车 来 。 

顾客 : 为 什么 ? 

客服 ;根据 我 们 的 CRM 全 球 定位 系统 的 车 辆 行驶 自动 跟踪 系统 记录 ,您 登记 有 一 辆 车 
号 为 SB-748 的 摩托 车 ,而 且 目 前 您 正在 解放 路 东 段 华 联 商场 右 侧 骑 着 这 辆 摩托 车 。 

顾客 当即 军 倒 。 

这 个 段子 体现 出 大 数据 可 以 为 企业 带 来 便利 ,比如 必胜客 的 客服 知道 要 向 顾客 怎样 推 
荐 合适 的 商品 以 及 利用 顾客 的 个 人 信息 提供 解决 方案 ,但 却 让 用 户 的 个 人 隐私 暴露 无 遗 , 其 
至 包括 用 户 的 所 有 电话 、 家 庭 财 产 、 家 人 健康 状况 活动 位 置信 息 等 。 如 果 这 些 信息 被 不 法 
分 子 用 于 非法 用 途 , 会 对 用 户 造 成 很 大 的 困扰 ,甚至 危及 个 人 及 家 庭 安 全 。 

无 论 是 美国 斯 诺 登 棱镜 门 ” 监 听 了 丑闻 ,还 是 层出不穷 的 诸如 Facebook 等 公司 客户 资料 
泄露 事件 ,都 向 我 们 发 出 大 数据 时 代 下 个 人 隐私 保护 的 预警 。 

大 数据 技术 ,与 其 他 所 有 技术 一 样 ,本 身 无 所 谓 “ 好 ”“ 坏 ”, 故 在 伦理 学 上 是 中 性 的 。 然 
而 使 用 它 的 个 人 、 公 司 、 机 构 是 有 价值 取向 的 ,使 得 大 数据 技术 犹如 一 把 双 刃 剑 , 给 我 们 的 生 
产 、 生 活 及 科研 等 带 来 极 大 便利 的 同时 ,也 带 来 了 诸如 隐私 泄露 的 风险 。 

怎样 在 合理 合法 利用 大 数据 改善 人 们 生活 的 同时 ,又 可 以 保障 用 户 隐私 信息 安全 是 研 
究 者 们 面临 的 一 个 重要 课题 。 

当今 的 大 数据 主要 存储 在 云 中 ,因此 云 存 储 安 全 是 大 数据 安全 的 基础 。 本 章 将 详细 介 
绍 在 大 数据 时 代 , 云 存储 安全 面临 的 新 问题 和 新 的 解决 方法 。 


9.1 大 数据 概述 


本 节 首 先 介 绍 大 数据 的 基本 概念 ,然后 分 析 大 数据 情景 下 的 数据 存储 挑战 ,并 指出 大 数 
据 的 应 用 价值 ,从 而 说 明 大 数据 的 存储 安全 人 研究 工作 的 理论 意义 与 应 用 前 景 。 


9.1.1 基本 概念 


根据 维基 百科 的 定义 ,大 数据 (Big Data) ,又 称 海量 数据 ,是 指 传统 数据 库 管理 工具 、 数 
据 处 理 及 应 用 软件 不 足以 处 理 的 大 而 复杂 的 数据 集 。 

舍 恩 伯 格 教授 在 其 著作 《大 数据 时 代 》 中 表达 的 第 一 个 核心 观点 就 是 : 大 数据 即 全 数 
H CEI n= AllD), 则 在 收集 和 分 析 与 某 事物 相关 的 “全 部 ”数据 ,而 非 “ 部 分 ”数据 。 

因为 大 数据 不 是 基于 抽样 ,而 是 利用 所 有 数据 ,所 以 大 数据 包含 的 数据 量 超出 了 传统 软 
件 在 可 接受 的 时 间 内 处 理 的 能 力 。 

近年 来 随 着 云 计算 ,移动 互联 、 人 工 智 能 等 现代 信息 技术 的 高 速 发 展 ,使 得 大 数据 的 采 
集 、 存 储 、 管 理 和 处 理 成 为 可 能 。 
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大 数据 具有 大 规模 (Volume) mE PE (Velocity) , 多样 性 (Variety) , HEE (Veracity) 、 
价值 密度 (Value) , 即 常 说 的 OV 特点 (IBM 提出 )。 换 言 之 ,大 数据 的 规模 大 ,要 求 分 析 速 度 
快 , 并 且 大 数据 的 类 型 多 种 多 样 ,其 价值 密度 较 小 ,因此 辨别 难度 大 。 因 为 大 数据 的 真 伪 性 
难以 辨识 ,并 且 呈 酚 片 化 存储 ,所 以 需要 经 过 加 工 才能 显现 出 大 数据 的 价值 。 

由 于 传 感 技 术 、 社 会 网 络 和 移动 设备 的 快速 发 展 和 大 规模 普及 ,导致 数据 规模 以 指数 级 
爆炸 式 增 长 ,并 且 数 据 类 型 和 相互 关系 复杂 多 样 。 总 体 来 说 ,大 数据 的 来 源 可 分 为 如 下 
3 类 。 

© 人 类 活动 ,人 在 使 用 互联 网 (包括 移动 互联 网 ) 的 过 程 中 所 产生 的 各 类 数据 。 

。 计算 机 ,各 种 计算 机 信息 系统 产生 的 数据 ,多 以 文件 数据库、 多 媒体 等 形式 存在 。 

。 物理 世界 ,各 类 数字 设备 所 采集 的 数据 ,比如 气象 系统 采集 设备 所 收集 的 海量 气象 

数据 .视频 监控 系统 产生 的 海量 视频 数据 .医疗 物 联 网 源源 不 断 的 健康 数据 等 。 其 
来 源 包括 搭载 感 测 设备 的 移动 设备 .高空 感 测 科 技 (遥感 ) RF i oe PAL. EAL 
无 线 射 频 辨识 (RFID) 和 无 线 感 测 网 络 等 。 

正如 图 灵 奖 获得 者 吉姆 ， 格雷 (Jim Gray) 在 其 获奖 演说 中 指出 的 那样 : 由 于 互联 网 的 
发 展 ,未 来 18 个 月 新 产生 的 数据 量 将 是 有 史 以 来 数据 量 之 和 。 也 就 是 每 18 个 月 ,全球 数据 
Ax HE gl BH E. 


9.1.2 大 数据 审 来 的 数据 存储 挑战 


2015 年 9 月 ,国务 院 印发 4 促进 大 数据 发 展 行动 纲要 》( 以 下 简称 《4 纲要》 ,系统 部 署 大 
数据 发 展 工作 .。《 纲 要 》 明 确 指出 ,推动 大 数据 发 展 和 应 用 ,在 未 来 5 一 10 年 打造 精准 治理 、 
多 方 协作 的 社会 治理 新 模式 ,建立 运行 平稳 、 安 全 高 效 的 经 济 运行 新 机 制 ,构建 以 人 为 本 、 惠 
及 全 民 的 民生 服务 新 体系 ,开启 大 众 创业 .万 众 创新 的 创新 驱动 新 格局 ,培育 高 端 智 能 、 新 兴 
繁 有 来 的 产业 发 展 新 生态 。 

大 数据 发 展 工作 的 主要 任务 包括 以 下 三 个 方面 。 

COD 加 快 政府 数据 开放 共享 ,推动 资源 整合 ,提升 治理 能 力 。 大 力 推动 政府 部 门 数据 共 
享 ,稳步 推动 公共 数据 资源 开放 ,统筹 规划 大 数据 基础 设施 建设 , 文 持 宏观 调控 科学 化 ,推动 
政府 治理 精准 化 ,推进 商事 服务 便捷 化 ,促进 安全 保障 高 效 化 ,加 快 民生 服务 普 惠 化 。 

(2) 推动 产业 创新 发 展 ,培育 新 兴业 态 ,助力 经 济 转型 。 发 展 大 数据 在 工业 、 新 兴 产 业 、 
农业 农村 等 行业 领域 应 用 ,推动 大 数据 发 展 与 科研 创新 有 机 结合 ,推进 基础 研究 和 核心 技术 
攻关 ,形成 大 数据 产品 体系 ,完善 大 数据 产业 链 。 

(3) 强化 安全 保障 ,提高 管理 水 平 ,促进 健康 发 展 。 健 全 大 数据 安全 保障 体系 ,强化 安 
全 文 撑 。 

2015 年 9 H 18 日 贵州 省 启动 我 国 首 个 大 数据 综合 试验 区 的 建设 工作 ,力争 通过 3 一 5 
年 的 努力 ,将 贵州 大 数据 综合 试验 区 建设 成 为 全 国 数据 汇聚 应 用 新 高 地 综合 治 理 示 范 区 、 
产业 发 展 聚 集 区 、 创 业 创新 首选 地 政策 创新 先行 区 。 

2016 年 3 月 17 日 《中 华人 民 共 和 国 国民 经 济 和 社会 发 展 第 十 三 个 五 年 规划 纲要 》 发 
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布 ,其 中 第 二 十 七 章 “ 实 施 国家 大 数据 战略 ”提出 : 把 大 数据 作为 基础 性 战略 资源 ,全 面 实施 
促进 大 数据 发 展 行动 ,加 快 推动 数据 资源 共享 开放 和 开发 应 用 ,助力 产业 转型 升级 和 社会 治 
理 创 新 ; 具体 包括 : 加 快 政府 数据 开放 共享 .促进 大 数据 产业 健康 发 展 。 

2012 年 ,美国 奥巴马 政府 投资 近 2 亿美 元 推行 4 大 数据 的 研究 与 发 展 计 划 》。 该 计划 涉 
及 美国 国防 部 .美国 卫生 与 公共 服务 部 门 等 多 个 联邦 部 门 和 机 构 , 旨 在 通过 提高 从 大 型 复杂 
的 数据 中 提取 知识 的 能 力 , 加 快 科学 和 工程 的 开发 ,保障 国家 安全 。 该 计划 强调 指出 ,大 数 
据 会 是 世界 未 来 的 “石油 ”。 

大 数据 已 经 被 提升 为 国家 基础 性 战略 资源 ,可 见 其 对 于 国家 发 展 的 重大 意义 。 那 么 在 
大 数据 情景 下 ,数据 存储 有 哪些 需求 呢 ? 

欧洲 核子 研究 中 心 (CERN) 最 近 一 次 震惊 物理 界 的 成 果 当 属 利用 大 型 强 子 对 撞 机 
(LHC) 发 现 了 希 格 斯 玻 色 子 一 一 构成 宇宙 的 最 基本 组 成 部 件 之 一 。 其 高 能 物理 实验 室 的 
阿 特 拉 斯 (ATLAS) 粒 子 探测 器 一 一 大 型 强 子 对 撞 机 有 1 亿 5000 万 个 感 测 器 ,每 秒 发 送 
4000 万 张 图 片 。 实 验 中 每 秒 产生 近 6 亿 次 的 对 撞 , 过 滤 去 除 99. 999% 的 撞击 数据 后 ,得 到 
约 100 次 的 有 用 撞击 数据 。 科 学 家 就 从 这 些 数 据 中 研究 物质 的 构成 ,包括 暗物质 、 暗 能 量 
以 及 标准 模型 要 寻找 的 “上 帝 粒 子 ” 一 一 布 格 斯 玻 色 子 。 

该 粒子 探测 器 每 秒 产生 的 数据 量 超 过 了 任何 其 他 科学 人 研究 ,包括 基因 组 学 和 气候 科学 ， 
其 数据 分 析 也 更 加 复杂 。 粒 子 物 理学 家 必须 同时 人 研究 数 百 万 次 的 碰撞 ,以 找到 隐藏 在 其 中 
的 信号 一 一 关于 暗物质 .额外 维度 和 新 粒子 的 信息 。 在 以 上 高 能 物理 、 基因 组 学 .气候 科学 
等 大 科学 的 研究 领域 ,数据 的 存储 需求 是 惊人 的 ! 

大 数据 的 应 用 还 包括 天 文学 .生物 学 .传感器 网 络 .移动 互联 网 .交通 运输 、 信 息 审 查 大 
社会 数据 .互联 网 搜索 引擎 .军事 侦察 、 金 融 、 健 康 医疗 .社交 网 络 、 图像 视频 .大 规模 电子 商 

大 数据 的 大 规模 特点 对 数据 管理 技术 提出 了 挑战 ,Oracle、IBM、Google、 微 软 .SAP 等 
数据 管理 与 分 析 企 业 在 大 数据 处 理 与 分 析 技 术 上 投入 大 量 经 费 ,用 于 开发 大 规模 并 行 处 理 
系统 、 数 据 挖 气 系 统 、 分 布 式 文件 系统 、 分 布 式 数 据 库 、 可 扩展 的 存储 系统 等 ,比如 
MapReduce、Spark 并 行 处 理 系 统 ,BigTable、MongoDB 等 大 型 NoSQL 数据 库 。 

总 结 起 来 ,大 数据 存储 面临 的 挑战 如 下 。 

(1) 数据 结构 特征 复杂 多 样 ,需要 能 够 高 效 存储 管理 以 及 分 析 处 理 这 类 数据 的 存储 管 
理 与 计算 系统 。 很 多 大 数据 应 用 领域 ,如 社交 网 络 数据 .基因 序列 数据 的 维度 高 ,数据 结构 
复杂 多 样 ,社交 网 络 有 图 数据 .关系 型 数据 以 及 非 结 构 数 据 等 ,基因 序列 每 条 记录 的 维度 可 
以 达到 数 千 万 , 均 对 数据 处 理 与 分 析 提 出 了 极 大 的 挑战 。 

(2) 海量 大 数据 的 处 理 效率 问题 。 此 前 受 限于 信息 处 理 能 力 , 神 经 网 络 相 关 算法 发 展 
迟缓 。 随 着 云 计算 与 云 存 储 平台 的 兴起 ,信息 处 理 能 力 大 幅 提 高 ,深度 学 习 算 法 如 雨后春笋 
般 涌现 ,也 解决 了 很 多 此 前 无 法 解决 的 问题 。 但 是 随 着 数据 量 的 爆炸 式 增长 ,各 类 应 用 对 数 
据 处 理 效率 的 需求 也 在 增长 ,计算 效率 的 不 断 提 升 仍然 是 大 数据 处 理 面 临 的 挑战 。 

(3) 各 种 来 源 、 各 种 类 型 以 及 各 种 数据 格式 的 多 元 数据 的 融合 困难 ,比如 健康 医疗 领 
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域 , 不 同 医 疗 机 构 数 据 管 理 系统 各 异 ,其 数据 纷 罕 复 杂 , 蚊 样 融 合 此 类 数据 成 为 一 大 挑战 。 
(4) 大 数据 无 论 在 数据 传输 还 是 在 动态 处 理 亦 或 静态 存储 时 ,都 面临 着 安全 风险 ,需要 
提供 多 维度 的 安全 保护 ,包括 数据 机 密 性 、 完 整 性 、 可 徘 性 以 及 可 用 性 等 。 
(5) 充分 利用 大 数据 的 前 提 是 大 数据 的 共享 ,大 数据 共享 时 的 隐私 保护 是 一 大 挑战 。 
此 外 ,大 数据 获取 方式 以 及 来 源 多 样 ,无 论 是 获取 设备 端 , 还 是 网 络 传输 过 程 均 可 能 存 
在 数据 不 完全 可 信 的 问题 ,使 得 获取 的 数据 真 伪 难 辨 ,这 也 给 大 数据 的 利用 市 来 极 大 的 


影响 。 
9.1.3 大 数据 的 应 用 价值 


大 数据 的 应 用 领域 极为 广泛 ,下 面 结合 一 些 实际 应 用 来 说 明 大 数据 给 日 常生 产 、 生 活 带 
来 的 潜在 价值 。 

案例 1: 公共 卫生 

2009 年 爆发 的 流感 病毒 一 一 甲 型 HIN1 流感 ,来 势 了 迅猛 ,肆虐 全 球 。 为 了 减缓 它 的 传 
播 速度 ,首先 必须 知道 流感 出 现 的 地 方 。 因 此 ,所 有 国家 都 要 求 医 生 在 发 现 甲 型 HINI i 
感 病例 时 ,要 及 时 告知 当地 疾病 控制 与 预防 中 心 。 但 是 流感 有 一 定 的 潜伏 期 ,有 些 患 者 可 能 
并 未 意识 到 自己 患 上 了 流感 ,也 就 不 会 去 医院 。 即 使 是 去 了 医院 ,再 由 医院 将 信息 传递 给 疾 
控 中 心 , 还 需要 时 间 。 所 以 疾 控 中 心 并 不 能 及 时 了 解 到 流感 患 病情 况 ,而 这 类 信息 滞后 会 给 
疾病 预防 与 治疗 市 来 致命 的 后 果 。 

Google 公司 统计 了 流感 期 间 网 上 的 搜索 记录 ,从 中 采集 了 5000 万 条 美国 人 最 频繁 检 
索 的 词 条 ,将 之 与 美国 疾 控 中 心 公布 的 2003—2008 年 季节 性 流感 传播 时 期 的 数据 一 起 , 通 
过 4.5 亿 个 不 同 的 数学 模型 进行 分 析 处 理 , 并 将 处 理 结果 (预测 结果 ) 与 2007 年 .2008 年 美 
国 疾 控 中 心 记 录 的 实际 流感 病例 进行 对 比 后 发 现 , 他 们 的 预测 与 官方 数据 的 相关 性 高 
ik 97%. 

案例 2. 健康 医疗 

伴随 医疗 卫生 行业 信息 化 进程 的 发 展 ,健康 医疗 大 数据 的 价值 逐渐 显现 。 苹 果 公 司 的 
传奇 总 裁 史 带 夫 。 乔 布 斯 在 其 癌症 治疗 过 程 中 结合 了 大 数据 ,成 为 世界 上 第 一 个 对 自 员 所 
有 DNA 和 肿瘤 DNA 进行 排序 的 人 。 对 于 一 个 普通 的 癌症 患者 ,医生 只 能 期 望 其 DNA FE 
列 同 试验 中 使 用 的 样本 足够 相似 。 但 是 ,乔布斯 的 医生 们 得 到 的 不 是 一 个 只 有 一 系列 标记 
的 样本 ,而 是 包括 所 有 基因 序列 的 数据 。 他 们 能 够 基于 乔布斯 的 特定 基因 组 成 , 按 所 需 效 果 
用 药 。 如 果 癌 症 病变 导致 药物 失效 ,医生 可 以 及 时 更 换 另 一 种 药 。 乔 布 斯 开玩笑 说 :“ 我 要 
么 是 第 一 个 通过 这 种 方式 战胜 癌症 的 人 ,要 么 就 是 最 后 一 个 因为 这 种 方式 死 于 癌症 的 人 。” 
虽然 他 的 愿望 都 没有 实现 ,但 是 这 种 获得 所 有 数据 而 不 仅 是 样本 的 方法 还 是 使 他 的 生命 延 
续 了 好 几 年 。 

案例 3. 公共 安全 

美国 洛杉矶 警察 局 和 美国 加 州 大 学 合作 ,利用 大 数据 预测 犯罪 的 发 生 。 他 们 采集 分 析 
了 80 年 来 1300 万 起 犯罪 案件 ,采用 算法 对 犯罪 行为 进行 研究 并 预测 ,然后 有 针对 性 地 进行 
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干预 ,成 功 地 将 相关 区 域 的 犯罪 率 降低 了 36 个 百分点 。 

在 美国 ,毒品 问题 被 称 为 美国 社会 的 "癌症 >?。 为 了 解决 这 个 问题 ,他 们 切断 毒品 供应 ， 
但 是 却 仍然 无 法 禁止 毒品 的 泛 选 。 其 中 的 原因 让 人 大 跌眼镜 ,原来 很 多 提炼 毒品 的 植物 , 比 
如 大 厅 的 种 植 非常 容易 ,甚至 可 以 在 家 里 种 植 。 在 马里 兰州 的 巴尔 的 摩 市 (约翰 。 和 霍 普 金 斯 
大 学 所 在 地 ) 东 部 ,有 一 些 废 弃 的 房屋 ,人 们 竞 然 在 里 面 用 LED A fit ft ts POR. FA Jd 
围 社 区 比较 混乱 ,很 少 有 外 人 去 ,因此 那里 就 成 了 大 采种 植 者 的 天 符 。 更 有 甚 者 ,在 环境 优 
美的 西雅图 地 区 ,有 一 家 人 花 50 万 美元 买 下 一 栋 紧 宅 ,周围 种 满 玫瑰 ,而 在 紧 宅 内 部 却 摆 满 
了 盆栽 的 大 及 。 房 主 每 年 卖 大 有 习 的 收入 不 仅 足 够 文 付 房子 的 分 期 付款 和 电费 ,而 且 还 让 他 
斤 够 了 首付 又 买 了 一 栋 房 子 。 类 似 情 况 在 美国 各 州 和 加 拿 大 不 少 地 区 都 有 发 生 , 由 于 种 植 
毒品 的 人 分 布地 域 广泛 而 且 隐 秘 , 定 位 种 植 毒品 的 房屋 很 困难 。 而 且 美 国 宪 法 的 第 四 修正 
案 规 定 :“ 人 人 具有 保障 人 和 号、 住所 、 文 件 及 财物 的 安全 ,不 受 无 理 之 搜查 和 扣押 的 权利 ”, 因 
此 警察 在 没有 证 据 时 不 得 随便 进入 这 些 房 屋 搜 查 。 在 2010 年 ,美国 各 大 媒体 报道 了 一 
则 新 闻 :“ 在 南 上 卡罗来纳 州 的 多 切 斯 特 , 和 警察 通过 智能 电表 收集 上 来 的 各 户 用 电 情 况 分 
Br , 抓 住 了 一 个 在 家 里 种 大 矿 的 人 。? 至 此 ,大 数据 的 分 析 让 在 室内 种 植 毒 品 的 犯罪 行为 
得 到 禁止 。 

案例 4: 商业 服务 

奥 伦 ， 埃 齐 奥 尼 (Oren Etzioni) 因为 严 到 高 价 机 票 ,萌生 了 对 机 票 价 格 进 行 预 测 的 想 
法 ,试图 帮助 用 户 买 到 实惠 的 机 票 。 于 是 ,他 创办 了 科技 公司 Farecast, 利 用 从 旅游 网 站 扑 
取 的 机 票 价格 样本 ,对 其 未 来 走势 进行 研究 分 析 , 并 将 预测 的 可 信和 度 标 示 出 来 , 供 消 费 者 参 
75. $| 2012 年 为 止 ,Farecast 系统 用 了 将 近 十 万 亿 条 价格 记录 来 帮助 预测 美国 国内 航班 的 
"fr. Farecast 标价 预测 的 准确 度 已 经 高 达 75%% ,使 用 Farecast 标价 预测 工具 购买 机 票 的 
旅客 ,平均 每 张 机 票 可 市 省 50 美元 。 

其 他 案例 ,如 统计 学 家 内 特 ， 西 尔 弗 (Nate Silver) 利 用 大 数据 预测 2012 年 美国 总 统 选 
举 结 果 , 打 省 理工 学 院 利 用 手机 定位 数据 和 交通 数据 建立 城市 规划 , 梅 西 百 贷 根据 需求 和 库 
存 的 情况 对 多 达 7300 万 种 货品 进行 实时 调价 ,收集 和 分 析 基 因 序 列 数 据 能 够 为 包括 个 性 化 
医疗 服务 在 内 的 各 种 应 用 市 来 帮助 。 

总 结 起 来 ,大 数据 的 应 用 价值 包括 (但 不 限于 ) 如 下 几 个 方面 。 

C1) 应 用 在 公共 卫生 、 公 共 交 通 、 公 共 安 全 等 领域 ,可 以 为 政府 节省 大 量 人 力 、 物 力 成 
本 , 极 大 地 提高 工作 效率 。 

(20 对 大 量 消费 者 提供 产品 或 服务 的 企业 来 说 ,可 以 利用 大 数据 分 析 与 挖掘 进行 精准 
营销 ,帮助 企业 降低 成 本 、 提 高 效率 、 开 发 新 产品 、 做 出 更 明智 的 业务 决策 ,消费 者 也 因此 而 


受益 。 
C3) 对 面临 互联 网 压力 的 传统 企业 来 说 ,可 以 利用 大 数据 做 服务 转型 ,根据 实际 需求 调 
整 产品 策略 。 


(4) 健康 医疗 大 数据 对 于 优化 健康 医疗 资源 配置 节约 信息 共享 成 本 、 创 新 健康 医疗 服 
务 的 内 容 与 形式 \ 提 供 临 床 决策 与 精准 医学 人 研究 等 具有 重要 的 价值 。 


要 充分 发 据 大 数据 的 应 用 价值 ,需要 数据 的 共享 , 即 实现 数据 的 “流动 性 ”和 “可 获取 
性 ”。 美 国政 府 创建 了 “一 站 式 数 据 下 载 网 站 ”Data. gov, 只 要 不 涉及 隐私 和 国家 安全 的 数 
45 , 均 需 在 该 网 站 公开 发 布 。Data. gov 的 创建 标志 着 美国 政府 数据 仓库 的 建立 。Data. gov 
网 站 创建 的 首要 目标 是 提供 易于 发 现 、 访 问 和 理解 的 数据 ,提供 各 种 标准 接口 ,方便 用 户 下 
载 数据 FF A RE WL AA Data. gov 数据 开发 特色 应 用 。 福 布 斯 杂志 网 站 利用 Data. gov 
中 的 人 口 流 动 数据 (主要 是 指 纳税 信息 ), 开 发 了 美国 人 口 迁 移 的 可 视 化 工具 ,企业 用 户 点 击 
任意 两 个 地 点 就 可 以 查看 人 口 迁 入 和 迁 出 情况 ,可 以 帮助 企业 实现 精准 营销 以 及 提供 决策 
BF 

截至 2016 年 4 月 Data. gov 的 “数据 (DATA)” 栏 目 中 提供 了 来 自 50 个 组 织 的 194 738 
个 数据 集 ,48 种 数据 格式 以 及 83 个 应 用 (APPs) ,并 在 网 站 主页 中 把 数据 集 分 为 了 农业 、 商 
WI AIR KRE ESRR 教育、 能 源 、 金 融 、 健 康 、 当 地 政府 \ 海 洋 、 制 造 业 、 公 众 安 全 、 科 人 研 
14 个 主题 。 

Data. gov 网 站 为 大 数据 敞开 了 大 门 , 越 来 越 多 的 国家 由 此 认识 到 开放 政府 数据 的 价值 
和 意义 。 各 国政 府 希 望 通 过 合理 开放 政府 数据 ,一 方面 实现 政务 公开 透明 , 男 一 方面 促进 个 
人 .企业 和 其 他 社会 组 织 利 用 开放 数据 创造 更 多 增值 创新 服务 。 

英国 法国、 加 拿 大 澳大利亚、 新 加 坡 、 新 西 兰 .挪威 、 爱尔兰. 丹麦、 秘鲁 日本、 圩 国 、 巴 
西 和 印度 等 40 多 个 国家 和 地 区 建立 了 政府 开放 数据 平台 。 各 国 除 了 利用 本 国 数据 建立 开 
放 数 据 平 台 之 外 ,还 合作 成 立 了 一 些 开 放 数 据 组 织 ,其 中 比较 有 代表 性 的 是 开放 政府 合作 联 
H (Open Government Partnership, OGP), 


9.2 大 数据 环境 下 的 云 存 储 安 全 


因为 云 计算 和 云 存储 技术 的 发 展 , 才 让 大 数据 的 应 用 成 为 可 能 , 云 计算 和 云 存 储 技术 是 
解决 大 数据 分 析 、 预 测 的 基本 方法 。 

以 云 计 算 和 云 存储 为 基础 的 数据 存储 、 信 息 分 享 和 数据 挖掘 ,可 以 高 效 地 将 大 量 高速 、 
多 变 的 数据 存储 起 来 ,并 随时 进行 分 析 与 计算 ,使 得 从 数据 中 提取 隐 仿 的、 未知 的 、 具 有 潜在 
价值 的 信息 越 来 越 容易 ,但 却 给 个 人 隐私 和 数据 安全 保护 带 来 极 大 的 挑战 。 

要 充分 利用 大 数据 ,前 提 是 数据 开放 共享 。 如 何在 实现 数据 开放 共享 的 同时 ,保护 个 人 
隐私 和 数据 安全 是 研究 者 们 面临 的 一 个 重要 课题 。 


9.2.1 安全 挑战 


大 数据 的 共享 必然 市 来 数据 隐私 等 安全 性 方面 的 挑战 ,总 结 起 来 包括 以 下 几 个 方面 。 

D 因为 云 计算 与 云 存 储 环境 下 ,服务 天 并 不 完全 可 信 , 所 以 用 户 数据 通 第 以 加 密 方 式 
存储 ,而 密 文 数据 又 给 大 数据 的 共享 与 利用 市 来 困难 。 如 何 对 密 文 数据 进行 处 理 分 析 , 即 密 
态 数 据 计 算是 一 大 挑战 。 

(2) 数据 隐私 保护 问题 。 虽 然 数据 公开 前 ,可 以 进行 脱 敏 .匿名 化 处 理 等 以 保护 数据 隐 
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私 , 但 是 不 同 的 公开 数据 整合 后 可 能 会 出 现 “1 十 1 盖 2? 的 后 果 。 比 如 在 美国 政府 的 公开 数据 
网 站 Data. gov 中 ,结合 两 组 貌似 不 存在 隐私 问题 的 数据 ,在 数据 之 间 建 立 关 联 , 可 能 会 提取 
一 些 存在 隐私 性 问题 的 信息 。 

(3) 数据 来 源 可 徘 性 问题 。 虽 然 获 取 了 共享 数据 ,但 数据 来 源 却 存在 不 可 徘 的 问题 ,是 
否 需要 对 数据 的 可 徘 性 进行 认证 或 检测 ? 怎样 实现 可 菲 性 验证 ? 比如 在 Data. gov 中 ,各 个 
政府 部 门 之 间 存 在 职能 交叉 ,采集 的 数据 也 难免 存在 一 些 交 义 , 当 两 个 部 门 采集 的 数据 不 一 
致 , 应 该 认为 谁 的 数据 更 可 徘 呢 ? 

(4) 数据 “被 遗忘 权 ”(Right to Be Forgotten) 问 题 。 在 存储 外 包 的 大 数据 时 代 , 会 产生 
诸如 “被 遗忘 权 ” 之 类 的 特殊 问题 。“ 被 遗忘 权 ” 是 指 用 户 是 否 有 权利 要 求 数 据 服务 商 不 保留 
日 己 的 某 些 信息 。 数 据 一 旦 共享 ,如 何 保障 共享 结束 后 的 数据 能 够 被 “遗忘”? 

(5) 数据 所 有 权 问 题 。 数 据 共享 后 ,数据 到 底 归 属 谁 ,数据 拥有 者 是 否 从 数据 共享 中 获 
益 , 也 是 大 数据 共享 时 要 考虑 的 问题 。 

2014 年 5 月 13 日 欧盟 法 院 就 “被 遗忘 权 ” 一 案 做 出 裁定 ,判决 合 歌 应 根据 用 户 请 求 删 
除 不 完整 的 .无 关 紧 要 的 、 不 相关 的 数据 以 保证 数据 不 出 现在 搜索 结果 中 。 

2016 Æ 4 月 ,欧洲 议会 投票 通过 了 商讨 4 年 之 久 的 《一 般 数据 保护 条 例 》(General Data 
Protection Regulation ,GDPR)。 该 法 规 包 括 91 个 条 文 ,共计 204 页 。 该 条 例 于 2 年 后 ,也 
就 是 在 2018 4p 5 H 25 日 正式 生效 。 

新 条 例 的 通过 意味 着 欧盟 对 个 人 信息 保护 及 其 监管 达到 了 前 所 未 有 的 高 度 , 可 称 为 史 
上 最 严格 的 数据 保护 条 例 。 非 欧盟 成 员 国 的 公司 (包括 免费 服务 ) 只 要 满足 下 列 两 个 条 件 之 
一 ,该 公司 就 受到 GDPR 的 管辖 。 

d) 为 了 回 欧盟 境内 可 识别 的 目 然 人 提供 商品 和 服务 而 收集 、 处 理 他 们 的 信息 。 

(2) 为 了 监控 欧盟 境内 可 识别 的 自然 人 的 活动 而 收集 、 人 处理 他 们 的 信息 。 

2018 年 6 月 28 日 ,在 加 州 议 会 大 厦 , 在 没有 反对 聚 的 情况 下 ,加 州 参 议院 和 众议院 合 
作 通 过 了 最 严厉 的 个 人 隐私 保护 法 案 AB375。 该 法 案 堪 比 欧盟 GDPR ,目的 是 让 用 户 对 公 
司 收集 和 管理 个 人 信息 的 方式 有 更 多 控制 权 。 根 据 该 法 案 , 从 2020 年 开始 , 擎 握 超 过 5 万 
个 人 信息 的 公司 必须 允许 用 户 查阅 目 己 被 收集 的 数据 .要求 删除 数据 ,以 及 选择 不 将 数据 出 
售 给 第 三 方 。 公 司 必 须 依 法 为 行使 这 种 权利 的 用 户 提供 平等 的 服务 ,一 旦 有 违法 行为 ,将 被 
处 以 7500 美元 的 罚款 。 该 法 案 将 适用 于 加 州 用 户 。 

在 以 上 安全 问题 中 ,数据 所 有 权 问 题 .数据 来 源 可 徘 性 问题 以 及 数据 "被 遗 筷 权 ” 问 题 可 
以 通过 有 效 的 立法 得 到 解决 。 

信息 安全 的 法 律 法 规 无 疑 是 保护 个 人 隐私 和 数据 安全 的 最 有 效 办 法 ,但 是 严厉 的 法 规 
也 会 阻碍 大 数据 的 共享 与 利用 。 因 此 ,为 了 充分 利用 大 数据 ,需要 从 技术 角度 上 提高 个 人 隐 
私 和 数据 安全 保护 水 平 。 

从 信息 安全 的 角度 来 看 ,保障 大 数据 安全 仍然 包括 CIAA 四 元 组 : 机 密 性 (Confidentiality)、 
完整 性 (Integrality) 、 可 用 性 (Availability) 以 及 访问 控制 (Access Control)。 在 以 上 安全 需 
求 中 ,身份 认证 与 访问 控制 技术 在 第 4 昔 有 详细 论述 ,而 机 密 性 保护 中 的 数据 加 密 在 第 5 章 
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有 专门 介绍 ,数据 完整 性 保护 在 第 7 AG PAH PAGE . 

大 数据 只 有 通过 开放 共享 ,并 对 其 进行 分 析 处 理 及 挖掘 ,才能 得 到 有 价值 的 信息 ,而 数 
据 通 第 存放 在 不 可 信 的 云 存 储 服务 关上 ,为 了 保 隐 机 密 性 ,数据 是 以 密 文 形式 存放 的 。 因 
此 ,如 何 对 密 文 数据 进行 处 理 分 析 , 是 大 数据 的 特殊 需求 , 即 密 态 计算 以 及 安全 多 方 计 算是 
本 章 的 要 点 。 夯 外 ,将 数据 进行 开放 共享 时 ,存在 个 人 隐私 泄露 的 问题 ,从 而 有 隐私 保护 需 
求 。 下 面 将 对 这 几 个 方面 进行 详细 介绍 。 


9.2.2 蜜 态 计算 


Google 的 G-mail 邮箱 与 腾讯 的 QQ 邮箱 这 类 为 用 户 提 供 免 费 E-mail 服务 的 提供 商 ， 
怎样 在 不 获取 用 户 邮 件 信 息 的 情况 下 ,为 用 户 提 供 邮 件 发 送 与 接收 检索、 删除 .主题 分 类 以 
及 垃圾 邮件 过 滤 等 功能 ? 
此 外 ,由 于 云 服 务 需 不 可 信 , 所 以 用 户 数据 需要 加 密 存 储 在 云 上 ,而 云 上 的 大 数据 具有 
巨大 的 潜在 价值 ,但 需要 对 其 进行 分 析 人 处 理 并 深度 挖掘 才 能 取得 这 些 有 价值 的 信息 。 怎 样 
在 密 文 域 上 对 数据 进行 分 析 统 计 , 实 现 “ 单 个 数据 、 部 分 数据 均 不 可 知 , 但 整体 统计 数据 可 
知 ” 的 功能 ? 怎样 利用 成 千 上 万 的 患者 病历 数据 进行 药物 疗效 分 析 ? 怎样 统计 并 利用 搜索 
引擎 的 用 户 高 频 搜索 词 实现 个 性 化 推荐 ? 其 他 应 用 ,如 加 密 网 络 流量 建 模 、 密 文 薪资 数据 、 
财务 数据 、 人 力 资 源 数 据 、 业 务 数 据 等 的 统计 分 析 怎 样 实现 ? 
这 些 功 能 的 实现 都 有 赖 于 密 态 计算 ,而 目前 密 态 计算 通常 利用 全 (部 分 ) 同 态 加 密 算法 
1978 年 ,R. Rivest, L. Adleman 和 M. Dertouzos 提出 了 “全 同 态 加 密 ”(Fully Homomorphic 
Encryption. FH E) ff] E 4H , 
it RE E. B) CS m ,相应 密 文 为 e, 即 e 二 Elm)。 若 对 明文 操作 f ,可 构造 操作 
F.WiÉFG)-—ECfKGUD.Bl FCEGUD —ECf Gn) MEK E 为 一 个 针对 了 的 同 态 加 密 算 
法 。 硅 对 任意 复杂 的 明文 操作 f ,都 能 构造 出 相应 的 下 , 则 称 E 为 全 同 态 加 密 算法 。 
自从 提出 同 态 加 蜜 以 来 ,研究 者 们 提出 了 不 少 半 同 态 加 密 算 法 ,但 始终 没有 找到 一 种 实 
用 的 全 同 态 加 密 方 案 。 比 如 ,RSA 算法 对 乘法 运算 是 同 态 的 ,但 它 对 加 法 运算 就 无 法 构造 
出 对 应 的 下; 而 Paillier 算法 则 对 加 法 运算 是 同 态 的 。 其 他 如 unpadded_RSA,EIGamal, 
Goldwasser-Micali, Benaloh 等 ,都 只 文 持 加 法 同 态 和 乘法 同 态 运算 中 的 一 种 。 
直至 2009 年 ,全 同 态 加 密 才 取 得 突破 性 进展 。IBM 公司 的 Gentry 基于 “理想 格 ” 
(Ideal Lattice) 代 数 结构 ,提出 第 一 种 真正 意义 上 的 全 同 态 加 密 体制 。 
根据 同 态 加 密 算法 发 展 阶段 , 文 持 密 文 运算 的 种 类 和 次 数 ,可 以 分 为 3 类 。 
。 部 分 同 态 加 密 (Partial Homomorphic Encryption, PHE) : 仅 支 持 单一 类 型 的 密 文 域 
同 态 运 算 ( 加 或 乘 同 态 ) 。 

。 类 同 态 加 密 (Somewhat Homomorphic Encryption, SHE): 能 够 支持 密 文 域 有 限 次 
数 的 加 法 和 乘法 同 态 运 算 。 

。 全 同 态 加 密 (Fully Homomorphic Encryption. FHE): 能 够 实现 任意 次 密 文 的 加 、 乘 
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同 态 加 密 的 发 展 大 致 可 分 为 两 个 阶段 。 

1. 半 同 态 加 密 时 代 (1978 一 2009 年 ) 

1978 年 ,Rivest、Shamir 和 Adleman 提出 的 基于 大 整数 分 解困 难 性 问题 的 RSA 密码 
体制 是 乘法 同 态 , 文 持 任意 次 数 乘 法 同 态 操作 。 

1984 年 ,ElGamal 提出 的 基于 离散 对 数 困难 问题 的 ElGamal 公 钥 加 密 体 制 是 乘法 同 
态 ,支持 任意 次 数 乘 法 同 态 操作 ; Goldwasser 和 Micali 提出 的 GM 概率 公 钥 密码 体制 是 加 
法 (mod 2) 同 态 ,支持 任意 次 加 法 (mod 2) 同 态 操作 ,也 是 第 一 种 具有 语义 安全 性 的 同 态 公 


钥 加 密 体 制 。 
1994 年 ,Benaloh 提出 的 Benaloh 加 法 同 态 密码 体制 是 加 法 同 态 ,支持 有 限 次 加 法 同 态 


1998 年 ,Okamoto 和 Uchiyama 提出 的 OU 体制 以 及 Naccache 和 Stern 提出 的 NS 体 
制 都 是 加 法 同 态 , 文 持 任意 多 次 加 法 同 态 操作 。 

1999 年 ,Paillier 提出 Paillier 体制 ,这 是 第 一 种 基于 判定 合 数 剩 余 类 问题 的 加 法 同 态 
密码 体制 ,支持 任意 多 次 加 法 同 态 操作 。 

2001 年 ,Damgard 和 Jurik 提出 的 DJ 体制 是 加 法 同 态 , 文 持 任 意 多 次 加 法 同 态 操作 。 

2005 年 ,Boneh、Goh 和 Nissim 提出 的 BGN 同 态 加 密 体制 支持 任意 多 次 加 法 同 态 和 一 

2. 全 同 态 加 密 时 代 (2009 一 至 今 ) 

2009 年 ,IBM 公司 研究 人 员 Craig Gentry 提出 基于 理想 格 的 全 同 态 加 密 体制 一 一 
Gentry 体制 ,其 本 质 是 一 种 基于 理想 格 陪 集 问 题 构 造 的 层次 型 FHE 方案 。 该 方案 首先 构 
造 一 个 对 称 型 SHE 算法 ,该 算法 文 持 密 文 的 低 阶 多 项 式 运 算 , 然 后 将 解密 操作 分 解 为 更 
小 的 子 操作 ,可 以 表示 为 低 阶 多 项 式 运 算 , 通 过 日 举 技术 (Bootstrapping) 将 受 限 同 态 加 密 
算法 转变 成 全 同 态 加 密 算 法 。Gentry 体制 的 密 文 处 理 效率 很 低 , 还 不 能 达到 实际 应 用 的 
要 求 。 

随 着 量子 计算 机 的 发 展 , 基 于 整数 分 解 .离散 对 数 等 困难 问题 的 密码 算法 都 将 变 得 不 安 
全 ,而 格 密码 能 够 很 好 地 抵御 量子 计算 攻击 。 上 自从 Gentry 体制 提出 以 来 ,理想 格 上 的 全 同 
态 加 密 体 制 设 计 成 为 密码 学 领域 的 一 个 新 的 研究 热点 。 

2010 年 ,Dijk 等 人 “提出 利用 整数 集 代替 理想 格 来 设计 全 同 态 加 密 算法 。 他 们 把 此 算 
法 的 安全 性 问题 归结 到 找 一 个 近似 的 最 大 公约 数 , 即 给 出 一 系列 是 某 个 隐 整 数 的 近似 倍数 
的 整数 , 找 出 此 隐 整 数 。 与 Gentry 体制 相 比 ,该 方案 更 加 简洁 ,但 处 理 效率 仍然 很 低 。 同 
年 ,Smart 和 Vercauteren ^ 借鉴 Gentry 体制 构造 全 同 态 加 密 方案 的 思想 , 选 定 两 个 大 整数 
组 成 公 钥 和 私 钥 ,一 个 大 整数 组 成 密 文 , 给 出 了 基于 相对 小 的 密 钥 和 密 文 规模 的 全 同 态 加 密 
方案 ,适用 于 任意 特征 为 2 的 域 上 的 全 同 态 加 密 快 速 计算 。 对 Gentry 体制 的 实现 及 其 快速 
计算 的 方案 有 [8,9], 通 过 提升 目 举 技术 和 减 小 公 钥 的 大 小 来 提升 其 执行 效率 的 方案 有 
[10-12], 但 是 这 些 方案 并 没有 完全 解决 FHE 方案 的 噪声 问题 。 


另 一 类 同 态 加 密 算 法 的 研究 是 基于 错误 学 习 (Learning With Errors. LWE) If E 4 
误 学 习 (Ring-LWE,RLWE) ,它们 的 安全 性 假设 可 以 归 约 到 一 般 格 上 的 标准 困难 问题 。 与 
Gentry 体制 不 同 , 它 首先 构建 一 个 SHE 方案 ,在 密 文 计算 后 ,通过 密 钥 交换 技术 来 控制 密 
文 问 量 的 维 数 膨胀 问题 ,最 后 使 用 模 转 换 技 术 (Modulus Switching) 降 低 密 文 运算 过 程 中 的 
噪声 ,不 需要 使 用 同 态 解密 技术 就 能 构造 一 个 层次 型 FHE 方案 来 执行 多 项 式 级 深度 的 
电路 。 

2005 年 ,Regev 定义 了 LWE 问题 是 “ 带 噪声 的 奇偶 校 验 学 习 ” 问 题 的 一 般 化 ,并 证 明 

了 该 问题 在 量子 规约 下 具有 类 似 的 最 坏 情况 特性 。2011 年 ,Brakerski 和 Vaikuntanathan*'* 基 
于 LWE 问题 构造 出 第 一 种 不 依赖 理想 格 的 全 同 态 加 密 体 制 一 一 BV 体制 。 由 于 LWE 问 
题 的 难 解 性 归 约 到 一 般 格 上 的 困难 问题 ,因此 这 一 体制 具备 比 Gentry 体制 更 可 靠 的 安全 性 
保障 。BYV 体制 的 缺陷 在 于 其 公 钥 斥 才 与 所 能 执行 的 密 文 乘法 次 数 成 正比 ,因而 难以 处 理 
较 复 杂 的 密 文 运 算 。 

由 于 此 类 方案 具有 可 抵抗 量子 攻击 和 可 简单 快速 实现 的 特点 ,成 为 当前 密码 学 领域 一 

个 重要 的 计算 困难 问题 。 

针对 基于 LWE 和 RLWE 问题 的 同 态 加 密 技 术 的 研究 “主要 为 了 进一步 提高 计算 

效率 ,而 对 于 如 何 控制 公 钥 尺寸 并 没有 有 效 的 解决 方案 。 

目前 大 数据 环境 下 ,为 了 实现 密 态 数据 计算 ,主要 是 采用 同 态 加 蜜 技术。 总 结 以 上 研究 

工作 ,存在 以 下 一 些 问题 。 

-A PHE 方案 在 应 用 中 执行 效率 更 高 ,但 是 仅 能 文 持 加 法 或 乘法 的 同 态 运算 。 
FHE 方案 在 功能 性 上 要 优 于 SHE 和 PHE 方案 ,但 是 由 于 FHE 方案 使 用 自 举 电 
路 、 维 数 归 约 技术 即 重 线性 化 (Dimension Modulus Reduction) 等 技术 来 降低 噪声 , 
从 而 达到 突破 限制 进行 密 文 同 态 运算 的 目的 ,复杂 的 计算 过 程 成 为 其 实际 应 用 的 
瓶颈 。 

。 目前 利用 同 态 加 密实 现 密 文 计算 的 方案 ,大 部 分 要 求 数 据 拥 有 者 在 数据 外 包 的 过 程 
中 做 大 量 的 协助 工作 ,例如 建立 并 维护 目录 ,或 者 要 求 通 过 可 信 第 三 方 实现 对 密 文 
的 运算 ,前 者 给 用 户 带 来 不 便 ,后 者 增加 了 数据 泄露 的 风险 。 

。 大 部 分 建立 在 公 钥 体制 上 语义 安全 的 同 态 加 密 算 法 都 存在 密 文 空间 膨胀 问题 ,这 是 
概率 加 密 算法 固有 的 问题 。 

。 其 他 问题 ,如 安全 性 、 计 算 效 率 也 是 有 待 改 善 的 问题 。 

文献 [20] 分 析 了 云 平台 中 存储 数据 安全 性 .用户 隐 私 保护 和 数据 商业 利用 这 三 者 之 间 

的 关系 和 实现 这 三 者 之 间 平 衡 的 重要 性 。 他 们 给 出 了 基于 理想 格 的 Gentry 原始 方案 、 基 于 
RLWE 的 BGV 方案 和 FV 方案 的 效率 比较 和 分 析 。 他 们 发 现 , 基 于 RLWE 的 SHE 方案 
为 很 多 涉及 实际 问题 的 计算 模型 和 算法 提供 了 比较 高 效 的 解决 方案 。 因 此 ,他 们 给 出 了 基 
于 BGV 方案 的 两 个 SHE 应 用 案例 ,分 析 表 明基 于 RLWE 的 SHE 方案 是 解决 数据 保密 
性 .用 户 隐 私 保 护 和 数据 商业 利用 的 最 有 效 方案 。 

文献 [21] 将 全 同 态 加 密 的 发 展 划分 为 3 个 阶段 : 第 一 阶段 是 Gentry Æ 2009 年 的 突破 
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性 工作 , 即 提 出 Gentry 体制 ; 第 二 阶段 是 Brakerski 和 Vaikuntanathan 首次 提出 基于 LWE 
的 全 同 态 加 密 方案 ; 第 三 阶段 是 Gentry 等 人 "首次 利用 近似 特征 向 量 的 方法 实现 了 全 同 
态 加 密 , 即 Gentry-Sahai-Waters(GSW) 方 案 , 在 同 态 运算 时 不 青 依赖 于 计算 公 钥 。 他 们 从 
全 同 态 加 密 所 经 历 的 3 个 阶段 .基于 格 的 全 同 态 加 密 体制 设计 和 全 同 态 加 密 面 临 的 问题 及 
发 展 趋 势 等 方面 介绍 了 自 Gentry 体制 后 的 重要 研究 成 果 。 

文献 L23j 对 同 态 加 密 技 术 在 云 计算 隐私 保护 中 的 应 用 做 了 综述 ,包括 云 计算 隐私 安全 
和 同 态 加 密 研 究 进展 、 同 态 加密 算 法 的 分 类 安全 理论 基础 、 全 同 态 加 密 方 案 的 实现 技术 , 重 
点 对 各 类 同 态 加 密 方 案 的 优 缺 点 进行 了 介绍 和 分 析 , 并 指出 未 来 的 研究 方 问 。 

由 于 量子 计算 机 的 发 展 , 可 抵抗 量子 攻击 的 格 密码 体制 成 为 后 量子 密码 研究 中 最 为 核 
心 的 研究 领域 。 中 国 科 学 院 院 士 . 中 国 密码 学 家 王小云 教授 ”从 全 同 态 加 密 所 经 历 的 3 个 
阶段 .基于 格 的 第 三 代 全 同 态 加 密 体制 (GSW 方案 ) 的 设计 和 全 同 态 加 密 面 临 的 问题 及 发 展 
趋势 等 方面 ,对 基于 格 的 全 同 态 加密 技 术 进 行 了 较为 详细 的 总 结 。 她 从 格 困难 问题 的 计算 
复杂 性 人 研究 、 格 困难 问题 的 求解 算法 、 格 密码 体制 的 设计 以 及 格 密码 分 析 4 个 方面 较为 全 面 
地 回顾 了 格 密码 领域 三 十 多 年 来 的 主要 人 研究 成 果 , 展 现 了 4 个 研究 领域 方法 的 渗透 与 融合 。 

随 者 同 态 加 密 技 术 的 发 展 ,结合 全 同 态 加 密 技 术 来 设计 其 他 的 密码 学 原 语 也 取得 了 显 
著 的 成 果 , 如 不 经 意 随 机 存 取 (Oblivious Random Access Memory. ORAM) H RE) | BFE 
计算 (Delegate Computation) ^? , 3R ifj (Obfuscation) 2 ?9 等 , 

2018 Æ IBM 密码 研究 团队 的 Shai Halevi 和 Victor Shoup“! 改进 了 当前 的 HElib( 实 
现 同 态 加 密 的 一 个 软件 库 ) ,使 得 新 的 算法 可 以 提速 30 一 75 倍 。 同 时 ,因为 密 钥 交换 矩阵 的 
存在 , 同 态 加 密 的 公 钥 构造 开销 很 大 ,他 们 提出 的 方案 可 以 将 矩阵 体积 减 小 33% 一 50%。 

因为 目前 的 HElib 线性 变换 算法 通过 “特殊 日 同 构 ” 实 现 ( 晶 同 构 是 指 将 对 象 映射 到 日 
号 的 同时 保持 其 全 部 结构 的 一 种 数学 操作 ) ,这 种 自 同 构 应 用 到 密 文 上 的 主要 开销 就 是 “ 密 
钥 交 换 ” 开 销 。 密 文中 每 个 环 元 紊 都 应 用 了 明 同 构 后 ,就 得 到 了 与 “错误 ” 密 钥 对 应 的 加 密 密 
文 。 使 用 该 目 同 构 特 定 公 钥 中 的 数据 ,也 就 是 “ 密 钥 交换 和 矩阵”, 可 以 将 密 文 转换 成 对 应 “ 正 
确 ? 密 钥 的 加 密 密 文 。 因 此 ,线性 变换 的 计算 开销 由 月 同 构 的 循环 次 数 决 定 。 为 了 提高 计算 
效率 ,要 减少 自 同 构 数 量 , 并 降低 每 个 自 同 构 的 开销 。Shai Halevi 和 Victor Shoup 提出 的 
算法 利用 新 的 日 同 构 计 算 策略 ,提速 了 30 一 75 fh. 

目前 ,HElib 项 目 还 处 于 研究 阶段 。 在 GitHub 页 面 上 ,他 们 声明 :“ 现 阶段 ,本 库 主要 
面向 研究 同 态 加 密 及 其 使 用 的 研究 人 员 。 目 前 HElib 还 相当 低级 ,最 好 把 它 看 作 “ 面 向 HE 
的 汇编 语言 。 换 名 话说 ,HElib 提供 了 低级 例 程 ( 置 位 操作 、 加 法 乘法 操作 、 移 位 操作 等 )， 
为 优化 提供 了 尽 可 能 多 的 途径 。 希望 我 们 终 能 提供 更 高 级 的 例 程 。” 

伴随 着 量子 计算 机 的 发 展 ,可 以 抵抗 量子 计算 攻击 的 同 态 加 密 技 术 , 其 发 展 必 然 同 步 加 
速 。 此 次 改进 使 得 同 态 加 密 性 能 最 高 提升 75 倍 ,是 同 态 加 密 技 术 发 展 给 大 数据 安全 计算 带 
来 的 最 大 福音 。 


9.2.3 安全 多 方 计算 
1982 年 ,图 灵 奖 获得 者 .中 国 科 学 院 院士 姚 期 智 - 裤 在 顶级 会 议 FOCS(IEEE Symposium 
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on Foundations of Computer Science) 上 提出 并 提供 原始 示范 解答 了 “ 百 万 富 全 ”问题 (Yao's 
Millionaires’ Problem) 。 该 问题 是 : 在 没有 可 信和 第 三 方 的 前 提 下 ,两 个 百 万 富翁 想 比较 谁 
更 加 富有 ,但 他 们 都 不 想 让 对 方 知道 自己 具体 的 财富 数目 。 这 个 问题 就 是 两 方 计算 问题 ,两 
个 参与 方 持 有 各 目的 秘密 数据 ,共同 执行 一 个 计算 逻辑 ,比如 比较 两 个 数 的 大 小 ,最 后 获得 
计算 结果 。 当 ”* 百 万 富 斧 ?问题 中 的 两 方 变 成 三 方 及 以 上 时 ,我 们 就 称 之 为 多 方 计 算 
(Multiparty Computation, MPC), 

安全 多 方 计算 可 以 在 保证 多 个 参与 者 数据 隐私 安全 的 同时 ,使 用 参与 者 提供 的 隐私 数 
据 进 行 既定 逻辑 的 运算 ,最 后 让 各 参与 者 获得 想 要 的 计算 结果 ,而 不 泄露 各 参与 者 的 数据 ， 
同时 实现 隐私 性 .正确 性 .输入 独立 性 以 及 公平 性 等 安全 目标 。 安 全 多 方 计算 可 以 进行 隐私 
计算 ,实现 数据 的 隐私 保护 和 共享 利用 ,现在 已 经 广泛 应 用 于 电子 投票 .高 维 数 据 分 类 .电子 
合同 签署 、 安 全 秘密 共享 、 联 合 基因 数据 分 析 、 匿 名 认证 以 及 隐私 信息 检索 等 方面 。 

因为 任意 可 计算 函数 都 存在 一 个 与 之 等 价 的 电路 ,所 以 可 以 通过 门 电路 实现 任意 可 计 
算 函 数 的 安全 计算 。 假 设 Alice 和 Bob 之 间 要 计算 一 个 任务 f ,他 们 的 输入 为 x 和 y ,要 完 
成 计算 ,可 以 构造 一 个 电路 C 执行 安全 计算 协议 并 计算 Say) WRA n 个 参与 者 希望 
利用 各 自 的 秘密 输入 zi emat, 共同 完成 计算 任务 f(xi,z;,…,Zx,), 也 可 以 通过 构造 
电路 来 实现 。 以 此 为 基础 的 安全 计算 协议 一 般 称 为 通用 的 安全 多 方 计算 协 议 。 通 用 的 安全 
多 方 计 算 协 议 通常 包括 基于 混 消 电路 的 构造 方法 、 基 于 秘密 分 享 的 构造 方法 和 基于 同 态 密 
码 的 构造 方法 。 

早期 安全 多 方 计算 协议 通常 首先 构造 一 个 需要 计算 的 函数 的 电路 ,然后 采用 不 同 的 技 
术 手 段 来 设计 该 电路 ,从 而 实现 函数 的 计算 。 计 算 函 数 越 复 杂 , 参 与 者 之 间 需 要 交互 的 次 数 
与 数据 越 多 ,计算 开销 越 大 ,电路 规模 也 越 大 ,因此 电路 的 规模 可 以 反映 函数 的 计算 复杂 度 。 

最 早 的 Yao 协议 ”就 是 将 功能 函数 转换 为 一 个 电路 ,然后 针对 电路 的 每 个 门 电路 进行 
混 消 ,和 逐次 计算 每 个 混 消 门 电路 来 实现 任意 功能 困 数 的 安全 多 方 计 算 。 

将 任意 一 个 功能 函数 转换 成 电路 ,通常 其 门 电路 的 数量 非常 大 ,而 其 混 清 电路 的 计算 开 
销 也 非常 大 ,因此 通过 简化 混 消 电 路 的 规模 可 以 提高 安全 多 方 计算 协 议 的 效率 。 文 献 L37j 
提出 Free-XOR 技术 对 混淆 XOR 门 进 行 优 化 ; X BA L38 | Hi Free-XOR 技术 一 般 化 为 
FleXOR 技术 ; 文献 L39,40j] 提 出 对 混 消 电路 的 值 表 进 行 优化 的 方法 ; 文献 L41j 提 出 “ 半 门 ” 
(Half Gate) 技 术 , 用 于 优化 混淆 电路 (基于 半 门 技术 ,理论 上 可 以 使 电路 规模 减少 33%). 

基于 混 泣 电路 的 安全 多 方 计算 的 电路 规模 通常 比较 大 ,通信 复杂 度 较 高 ,作为 安全 多 方 
计算 核心 技术 之 一 的 同 态 加 密 技术 可 以 克服 这 些 问题 。 

Asharov 等 个 首次 提出 基于 门限 同 态 加 密 (Threshold-FHE)' 和 方案 设计 MPC 协议 
的 概念 ,他 们 利用 Threshold-FHE 方案 ,在 CRS(Common Reference String) 模 型 下 ,基于 
LWE 假设 构造 了 一 个 抵抗 半 恶 意 敌 手 的 3- 轮 MPC 协议 ,并 利用 非 交 互 零 知识 (Non- 
interactive Zero-knowledge) 证 明 获 得 一 个 抵抗 恶意 敌手 的 4- 轮 MPC 协议 。 在 3- 轮 MPC 
协议 中 ,各 参与 方 协作 获得 一 个 FHE 方案 的 通用 公 钥 ,然后 各 参与 方 对 各 上 自 的 私 钥 进 行 秘 
密 共 至 ,利用 通用 公 钥 来 加 密 各 日 的 输入 并 将 密 文 广播 出 去 ; 当 各 参与 方 接收 到 各 个 密 文 
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后 ,在 本 地 执行 并 完成 同 态 运算 ,接着 利用 收 到 的 所 有 私 钥 份 额 对 同 态 运算 后 的 密 文 进行 解 
密 ; 最 后 利用 拉 格 朗 日 插值 多 项 式 恢复 出 同 态 运 算 后 的 结果 。 

Garg 等 人 "和 利用 不 可 区 分 性 混淆 (indistinguishability Obfuscation,i0) 和 非 交 互 零 知 
识 证 明 构 造 了 一 个 在 CRS 模型 下 抵抗 静态 恶意 敌手 的 2- 轮 公平 的 MPC 协议 。Gordon 等 
人 “指出 ,在 Standalone 模型 下 ,2- 轮 公平 的 MPC 协议 是 不 可 能 实现 的 。 因 此 ,他 们 实现 
了 在 CRS 模型 下 3- 轮 公平 的 MPC 协议 ,该 协议 无 需 增 加 通信 的 轮 次 ,最 后 他 们 利用 
Asharov 等 人 ' 生 的 编译 器 ,获得 一 个 在 CRS 模型 下 抵抗 恶意 敌手 的 4- 轮 公平 的 MPC 
协议 。 

Lopez-Alt 等 人 -所 首 次 提出 基于 多 密 钥 同 态 加 密 (Multikey-FHE) 的 MPC 概念 。 他 们 
利用 Multikey-FHE 方案 ,在 CRS 模型 下 构造 了 一 个 抵抗 半 恶 意 敌 手 的 3- 轮 MPC 协议 。 
Mukherjee 等 人 5 利用 文献 [48] 构 造 的 基于 GSW 的 Multikey-FHE 方案 ,构造 了 一 个 在 
CRS 模型 下 ,抵抗 半 恶 意 敌 手 的 2- 轮 MPC 协议 。 在 2- 轮 MPC 协议 中 ,各 参与 方 执行 密 钥 
生成 算法 获得 公 钥 和 私 钥 ,并 在 各 自 的 公 钥 下 加 密 各 自 的 输入 ,将 获得 的 密 文 广播 出 去 ; 各 
参与 方 接收 到 各 个 密 文 后 ,在 本 地 执行 并 完成 同 态 运算 ,并 利用 各 自私 钥 来 获得 部 分 解密 结 
果 ; 最 后 利用 所 有 收 到 的 部 分 解密 结果 来 获得 最 终 的 同 态 运算 结果 。 

Mukherjee 等 人 [的 FHE 方 案 仅 支持 单 跳 (Single-hop) 的 同 态 运算 ,在 协议 开始 之 前 
要 先 确定 各 参与 方 。Brakerski EA 构造 了 一 种 完全 动态 的 Multikey-FHE 方案 ,允许 参 
与 方 随意 加 入 与 退出 协议 ,同时 支持 多 跳 (Multi-hop) 的 同 态 运算 。Peikert 等 人 中 也 提出 
两 种 基于 MultiKey-FHE 的 方案 。 

文献 [51] 提 出 一 种 新 的 对 保密 数据 进行 编码 的 方案 ,然后 利用 这 种 新 的 编码 方案 和 同 
态 加 密 方案 构造 了 一 个 “ 百 万 富翁 ?问题 的 新 的 解决 方案 ,可 以 对 可 定义 全 序 关 系 的 任意 两 
个 对 象 进行 比较 ,解决 了 另 一 个 新 的 多 方 保密 计算 问题 , 即 两 个 整数 的 互 素 问题 。 

Dodis 等 他 利用 函数 秘密 共享 (Function Secret Sharing. FSS) 的 方法 构造 了 一 种 
Spooky 加 蜜 方案 ,并 基于 该 加 密 方 案 和 概率 不 可 区 分 性 混 消 (Probabilistic indistinguishability 
Obfuscation ,PiO) 设 计 了 一 个 2- 轮 的 MPC 协议 。 

此 外 ,密码 协议 的 公平 性 问题 一 直 是 研究 的 重要 方面 。 文 献 [35] 在 提出 安全 多 方 计算 
时 就 引入 了 公平 性 的 思想 ,但 是 Cleve? 指出 只 有 存在 大 多 数 诚 实 参 与 者 的 情况 下 ,安全 多 
方 计算 协议 才能 实现 完全 公平 性 。Asokan™“*“ 引 入 了 乐观 模型 ,在 该 模型 中 用 一 个 额外 的 可 
信 第 三 方 来 实现 和 保证 协议 的 公平 性 。Boneh 和 Naor! 汪 给 出 了 一 个 公平 签约 协议 的 类 似 
下 界 ,能 达到 宽松 定义 的 公平 性 (Relaxed Definition of Fairness)。 文 献 [56] 研 究 了 两 方 安 
全 计算 的 部 分 公平 性 ,指出 在 Plain 模型 (如 无 条 件 安全 和 通用 可 组 合 安 全 等 ) 下 其 部 分 公 
平 性 通常 是 不 可 能 达到 的 。 在 文献 [57] 中 ,他 们 给 出 了 部 分 公平 性 的 完整 定义 。2008 年 ， 
Gordon 等 人 -对 某 些 特殊 函数 的 安全 多 方 计 算 协 议 的 公平 性 进行 了 研究 ,论证 了 即使 不 
存在 大 多 数 诚实 参与 者 的 情况 下 ,安全 多 方 计算 也 可 以 实现 完全 公平 性 ,从 而 扩展 了 公平 密 
码 协 议 的 研究 领域 。 

文献 L59 在 通用 可 组 合 (Universally Composable,UC) 框 架 下 研究 了 安全 多 方 计 算 的 


公平 性 问题 。 他 们 提出 公平 安全 多 方 计算 的 安全 模型 ,并 在 此 模型 中 形式 化 定义 了 公平 安 
全 多 方 加 法 计算 理想 函数 和 公平 安全 多 方 乘法 计算 理想 函数 ,然后 基于 双 线 性 对 技术 和 承 
庄 方 案 理想 函数 ,在 混合 模型 下 分 别 设计 公平 加 法 协议 和 公平 乘法 协议 安全 实现 理想 函数 。 

早期 的 安全 多 方 计 算 停 留 在 理论 研究 上 , 极 大 地 促进 了 和 零 知 识 证 明 、 不 经 意 传输 、 秘 密 
共享 等 密码 学 原 语 的 发 展 。 但 是 随 着 云 计 算 与 大 数据 领域 对 安全 多 方 计 算 的 迫切 需求 以 及 
近 几 年 的 加 速 发 展 , 安 全 多 方 计 算 已 经 从 理论 密码 学 的 研究 领域 发 展 到 了 实用 化 的 阶段 ,出 
现 很 多 在 具体 应 用 领域 的 研究 成 果 。 

文献 L60j 研 究 了 如 何 保密 地 将 多 个 字符 按照 字典 序 排 序 , 这 个 问题 的 解决 将 可 以 提高 
数据 库 保 密 查 询 的 效率 。 为 了 保密 地 判断 多 个 字符 按照 字典 序 排 序 的 位 置 关系 ,他 们 首先 
设计 了 一 种 新 的 编码 方法 ,结合 Paillier 加 法 同 态 加 密 算法 、 椭 圆 曲 线 加 法 同 态 加 密 算法 、 秘 
密 分 割 和 门限 解密 算法 ,分 别 设 计 了 3 个 能 够 抵抗 合谋 攻击 的 多 个 字符 保密 排序 的 协议 。 
他 们 利用 安全 多 方 计 算 普 遍 采 用 的 模拟 范例 证 明了 协议 在 半 诚 实 模 型 下 的 安全 性 。 

在 经 典 的 “ 百 万 富 俩 ”协定 中 ,参与 者 之 一 在 获取 到 财产 大 小 的 结论 后 ,有 可 能 不 告诉 男 
外 一 个 参与 者 ,而 结合 博弈 论 可 以 避免 这 个 问题 。 通 党 ,参与 者 会 选择 做 出 对 自己 有 利 的 决 
定 , 因 此 可 以 设计 一 个 协议 ,使 但 循 这 个 协议 的 参与 者 获得 的 利益 大 于 背离 这 个 协议 的 利 
益 。 针 对 当前 基于 博弈 论 的 方案 计算 效率 较 低 的 问题 ,文献 L61 通过 引入 多 个 参数 ,从 多 个 
角度 考虑 ,构建 了 一 个 具有 一 般 性 和 全 面 性 的 博弈 模型 ; 然后 在 此 基础 上 ,引入 一 个 二 又 树 
来 提高 计算 效率 。 

保护 隐私 的 位 置 判 断 是 一 种 具体 的 安全 多 方 计 算 几 何 问题 , 即 在 保持 各 目 输 入 隐私 的 
条 件 下 ,判断 各 个 参与 者 位 于 平面 或 者 空间 的 相对 位 置 。 点 包含 问题 是 保密 判断 一 个 点 是 
否 落 在 一 个 凸 多 边 形 的 内 部 ,两 组 数据 对 应 成 比例 问题 可 保密 判断 空间 中 两 个 平面 或 直线 
是 否 平行 ,这 两 个 问题 同属 于 安全 多 方 几 何 计算 中 保护 隐私 的 位 置 判 断 问题 。 而 当前 这 两 
个 问题 的 已 有 方案 的 效率 都 较 低 ,文献 L62j] 提 出 将 点 包含 问题 转化 为 三 角形 面积 问题 ,将 两 
组 数据 对 应 成 比例 问题 转化 为 问 量 共 线 问题 ,然后 基于 内 积 协议 解决 了 这 两 个 问题 。 他 们 
利用 以 上 协议 ,分别 给 出 了 保密 判断 凸 多 边 形 包含 、 三 角形 相似 、 空 间 几 何 对 象 的 相对 位 置 
的 应 用 。 

针对 当前 安全 计算 集合 关系 的 协议 大 多 基于 公 钥 加 密 算 法 ,导致 很 难 再 能 人 到 带 有 属 
性 关系 的 公 和 钥 加 密 或 密 文 搜索 中 ,文献 L63j 给 出 了 非 加 密 方 法 安全 计算 集合 包含 关系 和 集 
合 交 集 的 两 个 协议 。 他 们 利用 秘密 共享 的 思想 ,分 别 将 原来 的 两 个 问题 转化 为 集合 相等 问 
题 ,然后 结合 离散 对 数 构造 了 安全 计算 集合 包含 关系 的 协议 1 和 集合 交集 的 协议 2。 他 们 
的 方案 没有 使 用 任何 公 钥 加 密 方 法 ,在 保持 了 较 优 通信 复杂 性 的 同时 ,便于 作为 一 种 子 模块 
租 入 到 带 有 集合 操作 关系 的 公 钥 加 密 体制 或 者 密 文 搜索 体制 中 ,从 而 丰富 这 些 方案 的 功能 。 

文献 L64j] 人 研究 了 科学 计算 中 多 个 数据 相等 问题 的 安全 多 方 计 算 。 他 们 设计 了 一 种 新 的 
编码 方法 ,使 每 个 参与 者 的 保密 数据 隐藏 在 一 个 特殊 数组 中 。 他 们 以 新 的 编码 方法 与 
ElGamal 同 态 加 密 算 法 为 基础 ,分 别 利用 秘密 分 享 技术 和 门限 密码 体制 构造 了 两 个 在 半 诚 
实 模型 下 能 够 抵抗 合谋 攻击 的 保密 判定 协议 ,应 用 模拟 范例 证 明了 协议 的 安全 性 。 


针对 大 数据 定价 困难 问题 ,文献 [65] 基 于 Micali-Rabin 的 安全 计算 技术 提出 一 种 具有 
大 数据 定价 功能 的 安全 委托 担 卖 方案 。 该 方案 首先 基于 Micali-Rabin 的 随机 向 量 表示 方法 
设计 满足 标价 密封 性 的 大 数据 拍卖 及 验证 算法 ; 然后 基于 Merkle 树 和 Bit 承诺 协议 实现 大 
数据 交易 中 数据 的 完整 性 和 底价 的 不 可 否认 性 ; 在 定价 阶段 ,他 们 利用 一 种 特殊 的 多 方 安 
全 计算 协议 隐藏 大 数据 的 底价 ,以 此 保障 了 大 数据 交易 的 公平 性 。 

文献 [66] 对 理性 安全 多 方 计算 ( 理 性 安全 多 方 计 算 主 要 考虑 参与 者 的 动机 ,刻画 理性 参 
与 者 效用 限 数 ,人 研究 在 各 种 条 件 下 参与 者 如 何 选 择 策 略 达 到 均衡 ) 的 相关 人 研究 工作 进行 了 综 
述 , 介 绍 了 理性 安全 多 方 计算 的 发 展 状 况 及 典型 成 果 并 指出 未 来 研究 方向 。 文 献 [67 介绍 
了 实用 安全 多 方 计算 协 议 关 键 技 术 人 研究 进展 ,其 中 重点 介绍 了 安全 多 方 计 算 实 用 化 的 3 种 
重要 技术 , 即 混 乱 电 路 优化 、 剪 切 -选择 技术 及 不 经 意 传输 扩展 技术 ,这 些 技 术 在 不 同 的 方面 
显著 提高 了 安全 多 方 计算 协 议 的 效率 。 文 献 [68] 对 云 环境 下 通用 安全 多 方 计算 协 议 的 研究 
进行 了 综述 ,介绍 了 一 些 基于 云 的 典型 特定 安全 多 方 计 算 协 议 , 并 指出 目前 云 中 安全 多 方 计 
算 存 在 的 问题 以 及 未 来 研究 的 方向 。 此 外 ,关于 安全 多 方 计 算 的 最 新 研究 成 果 可 以 参考 文 
献 | 69-83 ], 


9.2.4 隐私 保护 


2006 年 ,美国 网 飞 公 司 (Netflix) 发 起 Netflix Prize 百 万 美金 推荐 系统 算法 竞赛 ,公开 
征集 电影 推荐 系统 的 最 佳 算法 ,能 把 现 有 推荐 系统 的 准确 率 提 高 10 6 的 参赛 者 将 获得 100 
万 美元 的 奖金 。 为 了 对 数据 进行 分 析 , 他 们 发 布 了 一 些 " 经 过 匿名 化 处 理 的 ”用户 影评 数据 
供 参 赛 者 测试 ,仅仅 保留 了 每 个 用 户 对 电影 的 评分 和 评分 的 时 间 戳 。 截 止 2009 年 9 月 ,来 
H 41 186 个 国家 的 四 万 多 个 参赛 团队 经 过 近 三 年 的 较量 ,终于 有 了 结果 ,一 个 由 工程 师 
和 统计 学 家 组 成 的 七 人 团队 村 得 了 大 奖 。 然 而 ,因为 发 布 的 数据 中 包含 用 户 不 愿意 泄 稿 的 
信息 ,此 项 竞赛 遭 到 了 用 户 的 起 诉 ,Netflix 也 不 得 不 取消 了 该 欧 赛 。 

基因 序列 数据 能 够 为 个 性 化 医疗 服务 等 应 用 提供 决策 依据 ,其 数据 维度 可 以 达到 数 干 
万 。 它 与 某 些 疾病 存在 特定 关联 .具有 刁 份 识别 能 力 ,并 且 能 够 揭示 家 族 关 系 。 因 此 ,基因 
序列 数据 是 一 种 重要 的 医疗 隐私 数据 ,需要 特别 的 隐私 保护 方案 。 而 一 些 看 似 不 重要 的 数 
据 ,比如 用 户 的 心率 .血压 、 血脂、 血糖 等 健康 状况 数据 SE 11 2E ER PT BE SE ICE Jis HB AL, A 
不 公平 对 待 等 系列 社会 问题 。 

随 着 移动 设备 的 迅速 普及 ,基于 地 理 位 置 的 服务 收集 了 大 量 的 个 人 位 置信 息 , 对 这 类 信 
奶 进 行 挖 据 和 分 析 将 骏 露 用 户 的 活动 轨迹 、 生 活 习 惯 等 个 人 隐私 信息 ,其 至 可 能 导致 用 户 人 
号 安全 受到 威胁 。 因 此 ,地 理 位 置 隐 私人 保护 也 人 迫在眉睫。 其 他 如 个 性 化 推荐 系统 、 智 能 城 
市 .社交 网 络 等 应 用 都 需要 提供 隐私 保护 。 

从 隐私 保护 的 角度 来 说 ,隐私 的 主体 是 单个 用 户 , 只 有 涉及 某 个 特定 用 户 的 敏感 信息 才 
叫 隐私 ,如 果 是 发 布 群体 用 户 的 信息 (一 般 叫 聚集 信息 ) 则 不 算 汇 露 隐私 。 因 此 ,充分 利用 并 
挖掘 大 数据 的 价值 可 以 不 需要 涉及 任何 用 户 的 个 人 隐私 。 

在 健康 医疗 大 数据 领域 即 是 如 此 ,利用 好 这 些 大 数据 对 于 优化 资源 配置 提供 临 床 决策 


与 精准 医学 研究 等 具有 重要 的 价值 ,但 怎样 合理 、 合 法 地 利用 这 些 数据 的 同时 又 能 保障 用 户 
的 隐私 信息 ,是 当前 吸 待 解 决 的 问题 。 

20 世纪 90 年 代 中 叶 , 为 了 推动 公共 医学 研究 ,美国 马 院 诸 塞 州 保险 委员 会 发 布 了 政府 
雇员 的 医疗 数据 。 为 了 防止 用 户 隐私 泄露 ,在 数据 发 布 之 前 进行 了 匿名 化 处 理 , 即 删除 了 所 
有 的 敏感 信息 ,如 姓名 、 身 份 证 号 码 和 家 庭 住 址 等 。 然 而 , 矿 省 理工 学 院 的 Sweeney 教授 成 
功 破解 了 这 份 匿名 化 处 理 后 的 医疗 数据 ,能够 确定 具体 某 一 个 人 的 医疗 记录 。 匿 名 医疗 数 
据 虽 然 删 除了 所 有 的 敏感 信息 ,但 仍然 保留 了 3 个 关键 字段 一 一 性 别 . 出 生日 期 和 邮编 。 
Sweeney 同时 有 一 份 公开 的 马萨诸塞 州 投票 人 名 单 (被 攻击 者 也 在 其 中 ) ,包括 投票 人 的 姓 
名 ,性 别 、 出 生日 期 ,住址 和 邮编 等 个 人 信息 。 她 将 两 份 数据 进行 匹配 , 即 可 确定 被 攻击 者 的 
医疗 记录 。Sweeney 进一步 研究 发 现 ,87% 的 美国 人 拥有 唯一 的 性 别 、 出 生日 期 和 邮编 三 元 
组 信息 ,同时 发 布 这 些 信息 几乎 等 同 于 直接 公开 。 这 也 是 公开 数据 整合 后 发 生 的 “1 十 1 二 2” 
造成 隐私 泄露 的 典型 案例 。 

早 在 20 世纪 80 年 代 初 ,Cox'55 便 首次 提出 了 匿名 化 的 概念 ,并 指出 这 种 方法 可 应 用 于 
隐私 信息 的 保护 。 

2002 4E , Sweeney? 提出 有 -匿名 (R-anonymity) 模 型 的 数据 匿名 化 隐私 保护 方法 ,考虑 
的 是 数据 拥有 者 想 与 其 他 用 户 共 享 其 私有 数据 ,但 是 不 能 泄露 其 身份 应 用 场景 。 针 对 这 个 
问题 ,他 通过 汉化 与 分 解 等 方式 对 原始 私有 数据 进行 匿名 化 处 理 , 有 效 地 解决 了 隐私 保护 问 
题 。&- 匿 名 模型 的 核心 思想 是 : 要 求 发 布 的 数据 中 每 一 条 记录 都 要 与 其 他 至 少 & 一 1 条 记 
录 不 可 区 分 ( 称 为 一 个 等 价 类 ) , 则 称 该 系统 提供 A- 匿 名 保护 。 当 攻击 者 获得 &- 匿 名 处 理 后 
的 数据 时 ,将 至 少 得 到 个 不 同人 的 记录 ,进而 无 法 做 出 准确 的 判断 。 参 数 & 表示 隐私 保 
护 的 强度 ,& 值 越 大 ,隐私 保护 的 强度 越 强 ,但 丢失 的 信息 也 就 越 多 ,数据 的 可 用 性 随 之 
降低 。 

2006 年 ,美国 康 奈 尔 大 学 的 Machanavajjhala 等 人 ~ 发现 了 k- 匿 名 模型 的 缺陷 , 即 没 
有 对 敏感 属性 做 任何 约束 ,攻击 者 可 以 利用 背景 知识 攻击 、 青 识别 攻击 和 一 致 性 攻击 等 方法 
来 确认 人 敏感 数据 与 个 人 的 关系 ,导致 隐私 泄露 。 例 如 ,攻击 者 获得 的 &- 匿 名 化 的 数据 ,如 果 
被 攻击 者 所 在 的 等 价 类 中 都 是 芯 滋 病 病 人 ,那么 攻击 者 很 容易 做 出 被 攻击 者 肯定 患 有 艾滋 
病 的 判断 (上 述 就 是 一 致 性 攻击 的 原理 )。 为 了 防止 一 致 性 攻击 ,他 们 以 新 的 隐私 保护 模 
型 一 一 /- 多 样 性 (1-diversity) 改 进 了 k- 匿 名 模型 ,保证 任意 一 个 等 价 类 中 的 敏感 属性 都 至 少 
有 /个 不 同 的 值 。 

针对 -匿名 模型 只 保护 身份 信息 ,不 能 保护 属性 信息 ,Truta 和 Vinay 提出 p- 敏 感 
k- 44 Cp-sensitive k-anonymity) 模 型 。 他 们 给 出 了 实现 p- 敏 感 &- 匿 名 性 质 的 两 个 必要 条 
件 ,并 使 用 泛 化 和 抑制 实现 了 一 个 满足 p- 敏 感 &- 匿 名 的 算法 。 同 一 年 ,Wong 等 人 "提出 
(a ,kk)- 匿 名 模型 ,使 用 a 阅 值 对 敏感 属性 进行 约束 ,在 -匿名 的 基础 上 ,进一步 保证 每 一 个 
等 价 类 中 与 任意 一 个 敏感 属性 值 相 关 记 录 的 百分比 不 高 于 a。 

针对 71- 多 样 性 模型 在 一 些 特殊 情况 下 不 适用 的 问题 ,Li 等 人 "提出 了 t- 近 邻 (1- 
closeness) 模 型 。 在 1- 多 样 性 模型 的 基础 上 ,该 模型 要 求 所 有 等 价 类 中 敏感 属性 的 分 布 尽量 
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接近 该 属性 的 全 局 分 布 , 即 两 个 分 布 之 间 的 距离 应 该 不 超过 阅 值 :。Xiao SE ACT 提出 m 
变性 (mm-invariance) 匿 名 模型 ,在 文 持 新 增 操 作 的 同时 , 文 持 数据 重 发 布 对 历史 数据 集 的 删 
ER ,有 效 地 限制 了 重 发 布 中 的 隐私 泄露 风险 。 所 有 匿名 机 制 都 试图 尽量 减少 信息 丢失 ,然而 
这 种 尝试 却 为 攻击 提供 了 漏洞 , Wong “ACY 称 之 为 “最 小 性 ?攻击 。 他 们 提出 的 m- PLE TE 
(m-confidentiality) 模 型 可 以 在 较 小 的 开销 和 信息 丢失 情况 下 抵制 此 类 攻击 。Sun AD” 
提出 的 p -敏感 -匿名 ( p -sensitive k-anonymity) CE Z Hh X Tc (8 jr Jes 3 28 GI) CP ,a )- 
敏感 &- 匿 名 (( ,wx)-sensitive k-anonymity) (更 多 地 关注 特定 的 值 ) 模 型 可 以 实现 更 有 效 的 
隐私 保护 并 提高 效率 。Campan 等 人 ”提出 约束 p- 敏 感 k- 匿 名 模型 ,并 实现 了 一 种 生成 约 
R p- 敏 感 k- 匿 名 的 算法 。Chen 等 人 ”提出 的 局 部 抑制 方法 可 以 显著 提高 匿名 轨迹 数据 
中 的 数据 效用 。 文 献 L95j 提 出 如 何 使 用 微 聚 合 来 生成 -匿名 大 近邻 数据 集 。 文 献 L96j 用 
信息 箭 模型 刻画 属性 的 隐私 程度 ,进而 为 信息 泄露 风险 量化 提供 文 撑 。 针 对 现 有 的 &- 匿 名 
模型 中 存在 泛 化 属性 选取 不 唯一 和 数据 过 度 泛 化 的 问题 , 宋 明 秋 等 人 ”引入 属性 近似 度 概 
念 , 提 出 多 属性 泛 化 的 &- 匿 名 算法 。 

&- 匿 名 模型 及 其 改进 方法 存在 两 个 主要 的 缺陷 。 

(1) 这 些 模型 总 是 因为 新 型 攻击 方法 的 出 现 而 需要 不 断 改 进 , 从 而 陷入 一 个 无 休止 的 
循环 中 。 

(2) 该 类 型 的 模型 对 攻击 者 的 背景 知识 和 攻击 模型 都 给 出 了 过 多 的 假设 ,但 这 些 假设 
在 现实 中 往往 并 不 完全 成 立 ,因此 攻击 者 总 是 能 够 找到 各 种 各 样 的 攻击 方法 来 进行 攻击 。 
其 根本 原因 是 无 法 提供 一 种 有 效 且 严格 的 方法 来 证 明 其 隐私 保护 水 平 , 无 法 对 其 隐私 保护 
水 平 进 行 定量 分 析 。 

因此 ,研究 者 需要 寻找 一 种 新 的 、 鲁 棒 性 更 好 的 隐私 保护 模型 ,能够 在 攻击 者 拥有 最 大 
背景 知识 的 条 件 下 抵抗 各 种 形式 的 攻击 。 差 分 隐私 保护 模型 就 是 在 这 样 的 需求 下 提出 的 。 

差分 隐私 (Differential Privacy. DP) 是 微软 研究 院 的 Dwork" 在 2006 年 提出 的 一 种 新 
的 隐私 保护 模型 。 该 方法 能 够 解决 传统 隐私 保护 模型 的 两 大 缺陷 ,具体 表现 如 下 。 

(OD 定义 了 一 个 严格 的 攻击 模型 ,即使 在 最 大 背景 知识 假设 , 即 攻 击 者 已 掌握 除 某 一 条 
记录 之 外 的 所 有 记录 信息 的 情况 下 ,仍然 无 法 获取 该 记录 的 隐私 信息 。 

(2) 对 隐私 保护 水 平 给 出 了 严格 的 数学 证 明和 量化 评估 方法 。 她 给 出 了 一 个 数学 描述 
来 测量 一 个 扰动 机 制 究 竟 能 够 市 来 多 大 程度 上 的 保密 性 ,此 后 还 给 出 了 差分 隐私 保护 模型 
的 综述 。 

差分 隐私 保护 技术 允许 研究 者 在 不 泄露 个 体 信 息 的 前 提 下 对 一 个 数据 集 进行 分 析 , 即 
保证 了 一 个 数据 集 的 每 个 个 体 信息 都 不 被 泄露 ,但 数据 集 整 体 的 统计 学 信息 (比如 均值 、 方 
差 ) 却 可 以 被 外 界 了 解 。 

差分 隐私 保护 的 目的 是 最 小 化 隐私 泄露 并 最 大 化 数据 效用 。 满 足 差分 隐私 的 标准 是 : 
知道 数据 中 的 一 条 记录 ,整个 数据 的 信息 炉 ( 不 确定 性 ) 几 乎 没有 改变 , 即 得 到 的 部 分 数据 内 
容 对 于 推测 出 更 多 的 数据 内 容 几 乎 没有 帮助 。 因 此 , 它 上 只 有 信息 论 意义 上 的 安全 性 。 差 分 
隐私 (Differential Privacy. DP) 的 严格 定义 如 下 : 
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考虑 两 个 相似 的 数据 库 D AD ,其 中 只 有 一 条 记录 的 数据 不 同 。 对 于 任意 参数 se 二 0， 
一 个 查询 函数 三 满足 s- 差 分 隐私 ,那么 两 个 数据 库 D 和 DD' 的 查询 结果 在 概率 上 非常 接近 。 
即 对 于 任意 的 查询 结果 集合 R ,满足 

PrL f(D) E R] e' Pr[ f(D’) ER] 

BSR — 2 iu or H3 AE X F A 18] 2 SRY] AS CC IS ZA I R M A A 2 FR EH TO oe fei E 
就 是 非常 困难 的 。 人 参数 s 接近 于 0 时 ,e 接近 于 1, 则 两 个 数据 集 的 查询 结果 越 接近 相等 ; s 
越 大 , 则 查询 结果 的 差异 越 大 , 越 没 有 隐私 ,但 查询 结果 也 越 精 确 。 在 差分 隐私 保护 模型 中 ， 
为 了 实现 隐私 保护 ,对 数据 加 入 了 噪声 ,使 得 数据 失真 。 因 为 在 这 种 扰动 机 制 下 , 中 任何 
单独 一 行 数据 存在 或 不 存在 都 几乎 不 影 啊 结果 。 

正 是 由 于 差分 隐私 保护 模型 的 诸多 优势 ,使 其 一 出 现 便 迅速 取代 传统 隐私 保护 模型 ,成 
为 当前 隐私 保护 研究 的 热点 ,并 引起 了 计算 机 科学 、 密 码 学 数据库、 数据 挖掘 \、 机 需 学 习 和 
人 工 智 能 等 多 个 领域 研究 者 的 关注 。 

差分 隐私 保护 是 基于 数据 失真 技术 ,在 数据 集中 加 入 满足 特定 分 布 的 随机 噪声 ,从 而 达 
到 隐私 保护 的 目的 。 但 所 加 入 的 噪声 量 与 数据 集 大 小 无 天 ,只 与 全 局 敏感 性 相关 。 因 此 ,对 
大 型 数据 集 , 仅 通过 添加 少量 的 噪声 就 能 达到 高 级 别 的 隐私 保护 。 篆 见 的 机 制 有 拉 普 拉 斯 
(Laplace) TL HOO” 48 X (exponential) BL d]? 和 数据 库 访 问 机 制 ”"2 。 

值得 一 提 的 是 ,2015 年 ,Dwork 等 人 "提出 应 用 差分 隐私 的 思想 可 以 解决 机 器 学 习 的 
过 度 拟 合 (over-fitting) 问 题 。 她 们 的 论文 发 表 在 了 2015 年 的 (科学 》(Science) 期 刊 上 。 

Havard 大 学 的 差分 隐私 实验 室 , 做 了 一 个 DP 的 原型 实现 (https://beta. dataverse. 
org/custom/ DifferentialPrivacyPrototype/) ,用 户 可 以 上 传 一 个 数据 集 ,然后 得 到 一 个 提供 
DP 保护 的 加 密 过 的 新 数据 集 。 

由 于 在 实际 应 用 中 要 找到 一 个 真正 可 信和 的 第 三 方 数据 收集 平台 是 很 困难 的 ,从 而 限制 
了 中 心 化 差分 隐私 技术 的 应 用 ,因此 一 些 研 究 者 提出 了 本 地 化 差分 隐私 (Local Differential 
Privacy) 2 保护 技术 。 本 地 化 差分 隐私 保护 技术 将 数据 的 隐私 化 处 理 过 程 转移 到 每 个 
用 户 上 ,让 用 户 单独 地 处 理 和 保护 个 人 敏感 信息 。 例 如 ,苹果 公司 将 本 地 化 差分 隐私 保护 技 
术 应 用 在 操作 系统 10S 10 上 以 保护 用 户 的 个 人 数据 隐私 ,谷歌 公司 使 用 该 技术 从 Chrome 
浏览 器 采集 用 户 的 行为 统计 数据 。 

本 地 化 差分 隐私 保护 技术 充分 考虑 任意 攻击 者 的 背景 知识 ,并 对 隐私 保护 程度 进行 量 
化 ,同时 在 本 地 扰动 数据 ,可 以 抵御 来 月 不 可 信 第 三 方 数据 收集 者 的 隐私 攻击 。 

文献 L107j 对 本 地 化 差分 隐私 保护 技术 做 了 综述 。 他 们 首先 介绍 了 本 地 化 差分 隐私 的 
原理 与 特性 ,并 总 结 和 归纳 了 该 技术 的 当前 研究 工作 ,然后 重点 阐述 了 该 技术 的 研究 热点 ， 
包括 本 地 化 差分 隐私 下 的 频数 统计 均值 统计 以 及 满足 本 地 化 差分 隐私 的 扰动 机 制 设计 等 。 
在 对 已 有 技术 深入 对 比分 析 的 基础 上 ,他 们 指出 了 本 地 化 差分 隐私 保护 技术 的 未 来 研究 
挑战 。 

文献 L108] 分 析 了 差分 隐私 保护 模型 相对 于 传统 安全 模型 的 优势 ,对 差分 隐私 基础 理论 
及 其 在 数据 发 布 与 数据 挖掘 中 的 应 用 研究 进行 了 综述 。Zhu 等 人 "站 对 差分 隐私 在 数据 发 
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布 与 数据 分 析 两 个 领域 的 应 用 进行 了 综述 。 

具有 量化 特征 以 及 强 隐私 保护 特点 的 差分 隐私 保护 机 制 , 也 存在 一 个 弱点 : HIE TT 
景 知 识 的 假设 很 强 , 需 要 在 查询 结果 中 加 入 大 量 的 随机 化 ,导致 数据 的 可 用 性 急剧 下 降 。 

个 性 化 推荐 系统 ”可 以 为 用 户 提供 定制 的 内 容 或 者 个 性 化 服务 ,但 是 需要 用 到 一 些 
用 户 的 隐私 信息 。 为 了 实现 隐私 保护 ,许多 推荐 系统 采用 了 协同 过 滤 技 术 , 但 是 基于 和 矩阵 分 
解 的 技术 却 是 最 成 功 的 ,已 经 在 许多 真实 的 推荐 系统 中 得 到 了 应 用 。 此 外 , Hua 等 
人 -二 提出 了 一 种 隐私 保护 的 矩阵 分 解 机 制 , 考 虑 到 实际 的 矩阵 分 解 过 程 中 用 户 动态 加 入 
与 退出 ,以 及 推荐 系统 可 信和 与 不 可 信 的 情况 ,提出 了 可 行 的 解决 方案 。 

文献 [113] 对 可 穿戴 设备 的 数据 隐私 保护 技术 进行 了 综述 ,他 们 以 可 穿戴 健康 跟踪 设备 
Fitbit 为 对 象 ,展开 了 可 和 穿戴 设备 安全 与 隐私 实例 分 析 , 总 结 了 面向 可 穿戴 设备 的 隐私 保护 
的 8 条 技术 途径 ,并 指出 需 进 一 步 研 究 的 热点 问题 。 

对 于 位 置信 息 隐 私 保护 ,可 以 分 为 以 下 几 类 。 

(1) 基于 虚假 数据 的 位 置信 息 隐 私 保 护 , 将 真实 数据 和 虚假 数据 一 起 发 送 给 服务 提供 
者 ,让 服务 提供 者 即使 分 析 位 置信 息 也 不 能 够 区 分 真实 数据 和 虚假 数据 。 

(2) 基于 限制 的 位 置信 息 隐 私 保护 ,有 选择 地 发 布 原 始 数据 ,限制 某 些 数据 项 的 发 布 ， 
或 者 根据 区 域 的 敏感 程度 ,一 旦 用 户 进入 敏感 区 域 ,将 限制 或 推迟 其 位 置 更 新 信息 。 

(3) 基于 泛 化 的 位 置信 息 隐 私 保 护 , 将 所 有 位 置 点 泛 化 为 相对 应 的 匿名 区 域 ,通过 沁 化 
与 分 解 等 方式 对 原始 私有 数据 进行 匿名 化 处 理 。 

(4) 利用 差分 隐私 的 位 置信 息 隐 私 保护 ,是 现今 地 理 位 置 隐私 保护 中 最 常用 的 技术 。 

关于 隐私 保护 的 研究 工作 非常 丰富 ,读者 可 以 参考 文献 L114-130j]。 


9.2.5 举例 : 健康 医疗 大 数据 安全 保护 


健康 医疗 大 数据 是 指 在 人 的 全 生命 周期 中 ,所 有 健康 医疗 活动 产生 的 数据 的 集合 ,包括 
健康 保障 、 医 疗 服务 \ 疾 病 防 控 、 养 生 保 健 以 及 食品 安全 等 多 方面 的 数据 。 

2016 年 6 H ,国务院 办 公 厅 颁发 《关于 促进 和 规范 健康 医疗 大 数据 应 用 发 展 的 指导 意 
见 》( 下 简称 《4 意见) ,提出 “健康 医疗 大 数据 是 国家 重要 的 基础 性 战略 资源 ,健康 医疗 大 数据 
应 用 发 展 将 带 来 健康 医疗 模式 的 深刻 变化 ”, 为 健康 医疗 大 数据 的 发 展 定 下 了 基调 。 

《意见 ) 中 指出 ,针对 法 律 法 规 和 隐私 安全 问题 ,要 求 完 善 数据 开放 共享 支撑 服务 体系 ， 
加 快 健康 医疗 数据 安全 体系 建设 ,制定 人 口 健康 信息 安全 规划 ,强化 国家 、 区 域 人 口 健康 信 
息 工程 技术 能 力 ,注重 内 容 安 全 和 技术 安全 ,确保 国家 关键 信息 基础 设施 和 核心 系统 自主 可 
控 与 安全 稳定 。 

2016 年 10 月 ,中 共 中 央 、 国 务 院 印 发 了 《(“ 健 康 中 国 2030? 规 划 纲 要 》, 提 出 加 强健 康 医 
疗 大 数据 应 用 体系 建设 ,推进 基于 区 域 人 口 健 康信 息 平台 的 健康 医疗 大 数据 开放 共享 、 深 度 
挖掘 和 广泛 应 用 。 

随 着 大 数据 、 云 计算 移动 互联 、 人 工 智 能 等 现代 信息 技术 的 高 速 发 展 ,使 得 健康 医疗 大 
数据 的 有 采集、 存储 、 管 理 和 处 理 成 为 可 能 。 健 康 医 疗 大 数据 作为 国家 重要 的 基础 性 战略 资 


源 ,将 带 来 健康 医疗 模式 的 深刻 变 单 。 充 分 挖掘 并 利用 这 些 大 数据 资源 ,一 个 重要 的 基础 就 
是 要 实行 开放 共享 ,同时 确保 国家 关键 信息 基础 设施 和 核心 系统 自主 可 控 与 安全 稳定 。 

易 观 智库 发 布 了 (中国 大 数据 市 场 年 度 综合 报告 2016》, 根 据 这 份 报告 数据 显示 ,2015 
年 中 国 大 数据 市 场 规模 达到 105. 5 亿 元 ,同比 增长 39.4%; 预计 未 来 3 一 4 年, 市场 规模 增 
长 率 将 保持 在 30% 以 上 。 

移动 信息 化 研究 中 心 对 2015 一 2020 年 中 国医 疗 健康 大 数据 市 场 规模 进行 了 统计 与 分 
析 ,如 图 9-1 所 示 。 预 计 到 2020 年 ,中 国医 疗 健康 大 数据 市 场 规模 将 达到 142. 8 亿 元 ,具有 
巨大 的 市 场 潜力 。 
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图 9-1 2015—2020 年 中 国医 疗 健康 大 数据 市 场 规模 
(单元 : 亿 元 。 数 据 来 源 : 移动 信息 化 研究 中 心 ,2017 年 4 月 ) 


实现 健康 医疗 大 数据 的 开放 共享 是 健康 医疗 信息 化 发 展 的 重要 目标 。 自 2009 年 以 来 ， 
美国 .英国 等 国家 先后 出 台 相 关 政 策 ,建立 国家 统一 数据 开放 平台 。 但 数据 开放 共享 也 给 个 
人 隐私 与 数据 安全 带 来 严峻 挑战 ,在 开放 共享 的 同时 必须 强化 健康 医疗 信息 安全 的 技术 
支撑 。 

一 要 加 强健 康 医疗 行业 网 络 信息 安全 等 级 保护 、 网 络 信 任 体 系 建设 ,提高 信息 安全 监 
测 、 预 警 和 应 对 能 力 ; 二 要 建立 信息 安全 认证 审查 机 制 、 数 据 安 全 和 个 人 隐私 影响 评估 体 
系 , 以 流程 化 .制度 化 确保 信息 安全 ; 三 要 从 技术 上 采取 数据 封装 数据 分 离 .去除 个 人 标识 
信息 等 措施 以 保护 个 人 隐私 。 

目前 ,医疗 和 健康 数据 呈 几 何 级 数 的 增长 ,主要 包括 医学 影像 病历、 检查 检验 结果 等 诊 
疗 数据 ,诊疗 费用 相关 的 支付 和 医保 数据 ,还 有 基因 测序 等 相关 的 患者 和 研发 数据 等 。 同 
时 ,疾病 与 患者 的 复杂 性 及 诊疗 的 多 样 性 导致 医疗 数据 结构 复杂 多 样 , 从 病历 检索 到 影像 识 
别 ,大 量 非 结构 化 的 数据 需要 自动 分 析 和 特征 提取 ,数据 的 处 理 与 管理 比较 复杂 。 

在 产业 界 , 关 于 健康 医疗 大 数据 的 平台 有 Google 的 Google Health (https://www. 
google. com/health/) 微软 的 HealthVaultChttp: //www. healthvault. com/) 和 阿里 巴巴 的 
阿里 健康 云 平台 (http://www. alihealth. cn/) 等 。 
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2008 年 推出 的 Google Health, 其 功能 主要 包括 建立 用 户 的 在 线 医疗 档案 、 从 医生 和 药 
房 下 载 医 疗 档 案 、 获 得 个 性 化 的 医疗 指南 、 查 询 医 生 资 质 以 及 与 家 人 或 医护 人 员 分 享 医疗 信 
息 等 。 由 于 缺乏 医务 人 员 的 参与 以 及 在 个 人 隐私 问题 上 遭 到 质疑 ,Google 在 2012 年 1 月 1 
日 关闭 了 这 项 服务 ,但 是 Google 在 医疗 健康 应 用 、 基 因 技 术 、 医 疗 大 数据 、 远 程 医疗 以 及 乱 
能 穿戴 等 方面 一 直 投 入 极 大 的 研发 经 费 。 

虽然 产业 界 投 入 了 大 量 研发 经 费用 于 健康 医疗 领域 ,但 到 目前 为 止 ,还 没有 一 个 可 以 让 
所 有 个 人 用 户 和 医疗 机 构 都 愿意 共享 其 健康 医疗 数据 的 应 用 平台 ,其 中 个 人 隐私 保护 和 数 
据 安全 仍 是 其 主要 阻碍 因素 之 一 。 

舍 恩 伯 格 教授 在 其 著作 《大 数据 时 代 》 呈 中 表达 的 第 一 个 核心 观点 就 是 : 大 数据 即 全 数 
据 ( 即 n= All) , 旨 在 收集 和 分 析 与 某 事物 相关 的 “全 部 ?数据 ,而 非 * 部 分 ”数据 。 

近年 来 随 着 健康 医疗 信息 化 的 发 展 ,在 科学 人 研究、 健康 医疗 服务 和 管理 实践 中 形成 了 健 
康 医疗 大 数据 。 利 用 好 这 些 大 数据 对 于 优化 健康 医疗 资源 配置 .节约 信息 共享 成 本 、 创 新 健 
康 医疗 服务 的 内 容 与 形式 、 提 供 临 床 决策 与 精准 医学 研究 等 具有 重要 的 价值 ,发 展 潜力 巨 
大 。 举 例 而 言 ,实施 健康 医疗 大 数据 互通 共享 后 ,政府 可 以 更 好 地 了 解 居 民 的 健康 状况 , 规 
划 区 域 医疗 顶层 设计 ,执行 监管 职能 ; 医院 可 以 提升 运营 效率 ,降低 运营 成 本 ,规避 医疗 责 
任 ; 医生 可 以 提高 医 技 ,降低 医疗 事故 风险 ; 患者 可 以 进行 自我 健康 管理 ,精准 用 药 , 降 低 
医疗 文 出 ; 药 企 可 以 实现 精准 推广 ,辅助 新 药 研发 : 医疗 保险 可 以 实现 精准 控 费 ,以 设计 更 
好 的 产品 ,优化 赔付 流程 。 

然而 ,针对 爆炸 式 增长 且 结 构 多 样 复杂 的 健康 医疗 大 数据 ,为 了 收集 尽 可 能 全 面 的 数 
据 , 以 充分 发 挥 这 些 数据 的 潜力 与 价值 ,在 要 求 所 有 机 构 和 个 人 开放 共享 这 些 数据 的 同时 ， 
如 何 保 障 个 人 隐私 与 数据 安全 ,是 当前 健康 医疗 大 数据 面临 的 最 大 挑战 。 

在 健康 医疗 领域 ,关于 隐私 保护 的 方案 还 比较 缺乏 。2016 年 ,Lin 等 人 "提出 一 种 用 
于 体 域 网 (Body Area Networks,BANS) 的 差分 隐私 保护 方案 ,用 于 保护 可 穿戴 式 传 感 颖 采 
集 的 大 数据 中 的 敏感 信息 。 该 方案 引入 了 动态 噪声 国 值 的 概念 ,使 其 更 适合 于 处 理 大 数据 。 

针对 分 类 相似 攻击 (CCategorical Similarity Attack, CSA) , 即 攻 击 者 能 够 识别 敏感 值 类 
别 之 间 的 相似 性 时 ,z- -敏感 有 -匿名 模型 不 能 保护 用 户 的 隐私 。 对 此 ,Anjum 等 人 "提出 
一 个 保护 PHRs 敏感 信息 的 平衡 总 -敏感 &- 匿 名 模型 ,并 利用 高 级 Petri W (High-Level 
Petri Nets,HLPN) 对 所 提出 的 模型 进行 形式 化 分 析 , 然 后 利用 SMT LIB 和 Z3 Ok fff si ole ds 
证 其 性 能 ,利用 标准 化 指标 来 评估 发 布 数据 的 效用 。 结 果 表 明 , 该 扩展 的 平衡 p -敏感 
-匿名 模型 能 提供 更 好 的 隐私 保护 和 效率 。 

另外 ,要 完全 实现 健康 医疗 大 数据 的 隐私 保护 ,其 重要 一 环 就 是 访问 控制 与 授权 管理 。 
目前 存在 以 下 几 方 面 问题 。 

。 由 于 患者 的 哪 部 分 临床 数据 能 够 被 医生 查看 ,需要 专业 的 医学 知识 才能 适当 定义 ， 

所 以 在 实际 系统 中 ,为 了 不 影响 医生 的 诊疗 工作 ,往往 给 予 尽 量 多 的 权限 , 即 过 度 授 
权 。 这 样 便 会 出 现 好 奇 的 医生 可 能 访问 对 治疗 过 程 无 关 的 病人 数据 ,从 而 造成 患者 


。 缺乏 有 效 的 细 粒 度 授权 方式 。 比 如 在 区 域 医疗 及 基层 医疗 信息 系统 中 “医疗 缴费 
通知 单 ” 这 个 客体 ,有 可 能 被 收费 员 ,药房 护士 .社保 员工 等 多 种 用 户 访 问 ,会 造成 不 
必要 的 患者 隐私 泄露 。 为 了 满足 最 小 权限 原则 ,需要 合理 的 模型 来 描述 大 数据 场景 
下 复杂 主体 的 多 样 化 访问 需求 。 

针对 以 上 问题 ,Wang 等 人 "9 提出 了 一 种 基于 风险 的 访问 控制 方案 。 该 方案 首先 明确 
定义 诚实 医生 与 好 奇 医生 的 区 别 , 即 诚实 医生 只 访问 正常 治疗 过 程 所 必需 的 病人 数据 ,而 好 
奇 医生 除了 访问 必需 的 病人 数据 外 ,还 会 访问 一 些 额外 的 病人 隐私 数据 。 利 用 信息 炉 来 描 
述 医生 访问 行为 时 ,好 奇 医生 由 于 访问 了 更 多 病人 数据 而 具有 更 高 的 烂 值 。 系 统 将 所 有 医 
生 访 问 行为 的 烂 作为 可 容 妨 的 风险 配额 分 配给 每 位 医生 ,在 治疗 过 程 中 ,每 位 医生 的 访问 行 
为 都 会 被 评估 风险 值 , 并 在 其 风险 配 斩 中 进行 扣 减 。 当 一 个 医生 的 风险 配额 被 扣 为 去 时 , 则 
不 能 再 进行 数据 访问 。 因 而 ,好 奇 医 生 会 由 于 经 篆 宪 探 病人 隐私 而 很 快 将 风险 配额 消耗 完 ， 
进而 被 管理 员 注 意 到 并 进行 防范 。 

me^ ASUSU 则 进一步 采用 了 最 大 期 望 (EM) 算 法 对 所 有 医生 的 历史 访问 行为 进行 分 
析 , 区 分 了 诚实 医生 和 好 奇 医 生 访问 行为 的 概率 分 布 ,并 以 诚实 医生 访问 行为 的 炉 作 为 系统 
可 承受 风险 的 基准 值 ,进一步 提高 了 风险 评估 和 实施 的 准确 性 。 

目前 在 医疗 领域 有 很 多 癌症 诊断 方法 ,其 中 病理 学 活体 检测 被 认为 是 最 为 可 信和 的 方法 。 
但 是 ,对 病理 学 切片 进行 分 析 却 是 一 件 困难 的 事情 ,因为 一 个 放大 40 倍 的 病理 切片 数字 图 
像 通常 包含 数 十 亿 像素 ,病理 学 家 要 在 这 样 大 规模 的 数据 里 寻找 微 转 移 .肿瘤 细胞 细小 群体 
等 早期 癌症 征兆 ,需要 对 大 量 的 图 像 数 据 进行 分 析 处 理 。 随 着 计算 能 力 和 这 度 学 习 算 法 的 
发 展 ,人 研究 者 们 提出 多 种 基于 深度 学 习 算 法 的 方法 来 帮助 病理 学 家 有 效 审 查 切 片 图 像 ,但 是 
已 有 的 方法 因为 图 像 切 片 对 周围 图 像 缺 少 关 联 而 导致 检测 结果 存在 假 阳 性 。 

2018 年 ,百度 硅谷 人 工 智 能 实验 室 (Baidu Silicon Valley Artificial Intelligence Lab) Hf 
究 人 员 提 出 一 种 基于 神经 条 件 随 机 场 (Neural Conditional Random Field. NCRF) 的 深度 学 
习 框 架 "… ,用 于 检测 全 切片 数字 化 图 像 (WSD 中 的 癌 细 胞 转移 。NCREF 通过 一 个 直接 位 于 
CNN 特征 提取 器 上 方 的 全 连接 CRF ,来 考虑 相 邻 图 像 块 之 间 的 空间 关联 。 他 们 提出 一 种 
新 的 座 度 学 习 算 法 ,不 仅 分 析 单 个 小 图 片 ,也 将 图 片 相 邻 的 网 格 进行 关联 分 析 , 将 相 邻 切片 
之 间 的 空间 相关 性 通过 特定 类 型 的 概率 图 形 模 型 (条 件 随 机 场 ) 进 行 建 模 。 通 过 考虑 相 邻 图 
片 之 间 的 相关 性 ,新 的 算法 可 以 极 大 地 减少 假 阳性 。 

在 Camelyon16 挑战 赛 测试 集 上 ,百度 的 算法 在 癌症 定位 上 的 得 分 (FROC) 为 0. 8096, 
超越 了 专业 的 病理 学 家 (0.7240) 和 前 一 个 Camelyon16 挑战 赛 冠 军 (0. 8074) 。 并 且 百 度 还 
Æ Github 上 开源 了 此 算法 ,希望 能 够 促进 病理 分 析 与 人 工 乔 能 领域 的 研究 。 

最 近 ,微软 公司 将 人 工 智 能 技术 引入 到 同 态 加 密 技 术 中 ,提出 了 在 加 密 数 据 上 的 训练 模 
型 系统 CryptoNets-?* ,可 以 利用 基于 RLWE 和 LWE 的 FHE 方案 对 数据 进行 加 密 , 然 后 
上 传 到 云 服 务 器 。 云 服务 器 首先 对 人 工 前 馈 神经 网 络 模型 使 用 密 文 数据 进行 训练 ,而 后 就 
可 以 使 用 人 工 前 馈 神 经 网 络 对 提交 的 密 文 进行 预测 分 析 。 

现代 医学 是 建立 在 实验 基础 上 的 循 证 医学 ,医生 的 诊疗 结论 必须 建立 在 相应 的 诊断 数 
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据 上 ,影像 是 重要 的 诊断 依据 ,医疗 行业 80% 一 90% 的 数据 都 来 源 于 医学 影像 。 人 工 智能 
的 深度 学 习 可 以 帮助 医生 完成 对 影像 的 分 类 、 目 标 检 测 、 图 像 分 割 与 检索 ,还 可 以 帮助 医生 
对 影像 中 的 可 疑 位 置 进行 标注 以 及 定量 分 析 ,协助 医生 完成 诊断 .治疗 工作 。 

那么 “人 工 智能 十 医学 影像 十 密码 学 ?是 否 可 以 帮助 医生 实现 更 好 的 诊疗 ,同时 还 能 保 
护 用 户 数据 安全 与 隐私 ? 作者 认为 这 是 一 个 值得 研究 的 问题 。 


9.3 基于 NoSOL 的 大 数据 云 存 储 


大 数据 市 来 大 机 过 的 同时 ,大 数据 的 安全 高 效 管理 也 面临 更 大 的 挑战 ,特别 是 当前 半 结 
构 化 数据 与 非 结 构 化 数据 占据 了 绝对 比例 。 

针对 异 构 的 海量 数据 的 大 数据 管理 系统 应 具有 以 下 几 个 特点 。 

。 高 可 扩展 性 ,满足 日 益 增长 的 数据 管理 需求 。 

。 高 性 能 ,满足 数据 读 写 的 实时 性 和 查询 处 理 的 高 性 能 。 
。 容错 性 ,保证 分 布 式 系统 的 高 可 用 性 。 

。 可 伸缩 性 ,可 以 按 需 分 配 资源 。 

e 尺 可 能 低 的 运营 成 本 。 

由 于 传统 的 关系 型 数据 库 所 固有 的 局 限 性 ,如 峰值 性 能 .伸缩 性 .容错 性 .可 扩展 性 差 等 
特性 ,已 经 很 难 满足 当前 海量 数据 的 柔性 管理 需求 。 

NoSQL(Not Only SQL) BE FF fit KBPS 是 指 那 些 非 关 系 型 的 ,分布 式 的 、 不 保证 
遵循 ACID 原则 的 数据 存储 系统 。ACID 是 指数 据 库 事务 正确 执行 的 4 个 基本 要 素 , 即 原 
子 性 (Atomicity) , — $& HE (Consistency) , pA Ej E CIsolation. X. fj ti sy. HE) FF A HE (Durability) 。 
NoSQL 数据 库 有 4 种 类 型 : 键 值 (Key-Value) 数 据 库 、 文 档 型 数据 库 、 列 存储 数据 库 、 图 数据 
库 。 通 常 ,这 些 数 据 库 在 存储 、 访 问 和 数据 结构 设计 方式 上 有 所 差异 ,但 都 针对 不 同 的 使 用 
案例 和 应 用 程序 进行 了 优化 。 

常用 的 NoSQL 数据 库 有 Google 的 Big Table Amazon 的 Dynamo, Apache 的 Cassandra、 基 
于 Hadoop HDFS 的 HBase,CouchDB, MongoDB 和 Redis 等 。 

NoSQL 数据 库 具 有 以 下 优势 。 

© Ey ETE: 去 掉 关 系数 据 库 的 关系 型 特征 ,数据 之 间 无 关系 ,非常 容易 扩展 ,在 架构 
层面 具有 高 可 扩展 性 。 

高 性 能 的 大 数据 处 理 : 没有 关系 型 特征 ,数据库 结 构 简 单 , 其 Cache 是 细 粒 度 的 记 

录 级 , 读 写 效率 很 高 。 

。 灵活 的 数据 模型 : NoSQL 无 须 事 先 为 要 存储 的 数据 建立 字段 ,随时 可 以 存储 自 定 
义 的 数据 格式 。 而 在 关系 数据 库 里 ,对 于 大 数据 量 的 表 进 行 字 段 增 删 是 一 件 开销 极 
大 的 工作 ,在 NoSQL 中 就 没有 这 个 问题 。 

。 高 可 用 性 : NoSQL 具有 高 可 用 的 架构 ,也 可 以 通过 复制 模型 实现 高 可 用 性 。 

NoSQL 数据 库 的 出 现 ,弥补 了 关系 数据 库 的 不 足 , 能 极 大 地 节省 开发 和 维护 成 本 。 其 
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中 ,文档 型 数据 库 则 在 将 半 结 构 化 数据 存储 为 文档 ,通常 采用 JSON 或 XML 格式 ,可 以 看 
作 是 键 值 数 据 库 的 升级 版 ,允许 文档 之 间 衣 套 键 值 ,但 文档 型 数据 库 比 键 值 数据 库 的 查询 效 
率 更 高 。 下 面 以 MongoDB 文档 型 数据 库 为 例 介 绍 健康 医疗 数据 的 存储 。 

MongoDB 是 10gen 公司 开发 的 面向 文档 的 开源 的 非 关 系 型 数据 库 (NOSQL) 系 统 , 采 
用 C++ 语言 编写 ,是 当前 最 流行 的 NoSQL 数据 库 。 它 具有 高 可 用 性 、 高 性 能 ,易于 扩展 的 
特点 ,并 且 提 供 了 一 种 强大 、 灵 活 、 可 扩展 的 数据 存储 方式 。 与 关系 型 数据 库 (RDBMS) 相 
比 , MongoDB 存储 方式 具有 很 大 的 不 同 。 其 数据 的 逻辑 结构 对 比如 表 9-1 所 示 。 其 中 ， 
MongoDB 集合 类 似 于 RDBMS 的 表 ,而 文档 则 相当 于 RDBMS 表 中 的 记录 。 


项 目 


表 9-1 MongoDB 数据 库 与 RMDBS 对 比 


数据 容器 数据 库 数据 库 

数据 集 集合 表 

数据 项 文档 记录 

数据 类 型 插入 文档 合并 表 

数据 单元 jak (Field) J| (Column) 

AR as MongoDB-server MySQL/ Oracle 


在 MongoDB 数据 库 中 ,文档 是 对 数据 的 抽象 ,采用 轻 量 级 的 二 进 制 数据 格式 BSON 
(Binary JSON) 存 储 。BSON 只 需要 使 用 很 少 的 空间 ,而 且 其 编 解码 效率 非常 高 ,即使 在 最 
坏 的 情况 下 ,BSON 格式 也 比 JSON 格式 在 最 好 的 情况 下 存储 效率 高 。MongoDB 数据 库 有 
以 下 优点 。 


强大 的 自动 化 shading 功能 。 

采用 内 存 文件 映射 机 制 实现 对 文档 的 读 写 操作 ,避免 了 频繁 的 磁盘 IO, 有 很 高 的 读 
全 索引 支持 ,查询 非常 高 效 。 

面 品 文档 (BSON) 存 储 , 数 据 模式 简单 而 强大 。 

支持 动态 查询 ,查询 指令 也 使 用 JSON 形式 的 标记 ,可 轻易 查询 文档 中 内 艇 的 对 象 
及 数组 。 

支持 JavaScript KIARA if . nT e Jl Bi si DUET FE XH JavaScript PARK. 


以 健康 医疗 信息 管理 为 例 , 个 人 健康 记录 (Personal Health Records. PHRs) Zi HE £t 4E 
是 结构 化 和 非 结 构 化 数据 的 混合 体 。 在 MongoDB 数据 库 中 ,PHRs 数据 存储 在 一 个 由 字 
段 组 成 的 集合 中 。 这 些 字段 由 一 个 名 称 和 一 个 可 以 是 整数 或 字符 串 的 值 组 成 。 表 9-2 所 示 
为 一 个 明文 PHRs 的 示例 ,除了 包括 个 人 信息 、 疾 病 和 电子 诊断 记录 外 ,还 可 能 包括 活动 模 
式 、 饮 食 习 惯 等 信息 。 其 中 的 病史 和 检查 医学 图 像 等 以 艇 套 的 方式 存储 在 男 外 的 文档 中 ,对 
于 超过 4MB 的 大 文件 将 使 用 GridFS 文件 规范 进行 分 块 存储 。 
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表 9-2 PHRs 示例 


个 人 信息 -— 电子 诊断 记录 
姓名 FR Ea 电话 病史 药物 检查 医学 图 像 
Mike 45 Male ***** Hepatitis B HX XR XX KK XX KE 
Alice 24 Female ***** Tuberculosis HX HR HX XXX Xxxxx 
Bob 30 Male *****  Cardiopathy Xxxx:X Xxx Xxx ox 
Sara 16 Female ***** Diabetes XxÁXxX x3xxXxXx % % HH % 


一 个 健康 医疗 信息 管理 系统 由 多 个 数据 库 (Database) 组 成 ,每 个 数据 库 由 一 组 集合 
(CCollection) 组 成 ,每 个 集合 由 任意 个 文档 (Document) 组 成 ,而 文档 由 一 系列 字段 组 成 ,每 
个 字段 是 一 个 键 值 对 ,其 中 键 是 字段 名 称 , 值 为 对 应 的 属性 值 。 除 了 键 值 对 ,MongoDB 还 
文 持 数组 这 类 复杂 数据 结构 ,使 得 文档 可 以 肯 套 子 文档 或 者 数组 ,因此 可 以 不 用 像 关 系 型 数 
据 库 那 样 依 徘 外 键 关 联 其 他 的 集合 ,提高 了 数据 库 的 性 能 。MongoDB 的 文档 采用 JSON 的 
二 进 制 结构 ,可 以 节省 存储 空间 。 但 在 某 些 情况 下 ,可 以 牺牲 额外 的 存储 空间 换取 更 高 的 传 
输 速度 。 如 图 9-2 所 示 为 一 个 典型 的 MongoDB 文档 结构 的 例子 。 

i 
Name:"Bob", 
Address: { city:;"Fuzhou",Country:"China"j , 
Hobby:['Football','Chess',"Basketbal!'], 
Grade:| {Lesson:"Computer",score:95}, {Lesson:"Math",score:75} | 
j 
图 9-2 MongoDB 文档 结构 


MongoDB 数据 库 适 用 于 以 下 场景 。 
适用 于 实时 的 插入 .更 新 与 查询 ,并 具备 应 用 程序 实时 数据 存储 所 需 的 复制 及 高 度 
伸缩 性 。 
非常 适合 文档 化 格式 的 存储 及 查询 。 
高 伸缩 性 的 场景 : MongoDB 非常 适合 由 数 十 或 者 数 百 台 服 务 强 组 成 的 数据 库 。 
更 加 注重 性 能 而 非 功 能 的 应 用 场景 。 

Google Bigtable!” (https://cloud. google. com/bigtable/) # Google 面向 大 数据 领域 
的 NoSQL 数据 库 服 务 。 它 也 是 为 Google {ER , Analytics (4 Pr) He A A Gmail 等 众多 核 
ty Google 服务 提供 支撑 的 数据 库 。HBase(Hadoop Database) 是 Apache 的 Hadoop 项 目 
的 子 项 目 , 是 Google Bigtable Æ Hadoop 上 的 开源 实现 。 

Bigtable 中 的 所 有 数据 在 传输 和 存储 时 都 会 进行 加 密 , 用 户 可 以 使 用 项 目 级 权限 来 控 
制 谁 有 权 访 问 Bigtable 中 存储 的 数据 。Bigtable 的 设计 目标 是 低 延 迟 、 高 吞吐 量 以 及 巨 量 
工作 负载 ,可 以 将 Bigtable 用 作 大 规模 、 低 延迟 应 用 的 存储 引擎 ,也 可 将 其 用 于 吞吐 量 密集 
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型 数据 处 理 和 分 析 , 是 运营 和 分 析 型 应 用 ,如 物 联网 分 析 和 金融 数据 分 析 的 理想 平台 。 

Google Cloud Datastore C https: //cloud. google. com/datastore/) 是 Google 面 回 网 页 
应 用 和 移动 应 用 的 可 大 规模 扩展 的 NoSQL Xs E, Cloud Datastore 可 目 动 处 理 分 片 和 复 
制 操作 ,提供 一 个 具有 高 可 用 性 且 可 自动 扩展 的 持久 数据 库 。 

DynamoDB (https://aws.amazon. com/cn/dynamodb/) 是 Amazon 的 NoSQL 云 数 据 
库 服务 ,适用 于 高 一 致 性 与 低 延 玉 的 应 用 场景 。 它 是 完全 托管 的 去 数据库 , 文 持 文档 和 键 值 
存储 模型 Amazon DynamoDB Accelerator (DAX) 是 一 种 完全 托管 且 高 度 可 徘 的 内 存 绥 
存 , 即 使 每 秒 钟 的 请 求 数量 达到 数 百 万 ,也 可 以 将 Amazon DynamoDB 的 啊 应 时 间 从 数 毫 
秒 缩短 到 数 微 秒 。DynamoDB 与 AWS Identity and Access Management (IAM) 集 成 ,可 以 
对 组 织 内 的 用 户 实现 精细 的 访问 控制 。 

表格 存储 (Table Store) (https://www. alibabacloud. com/zh/product/table-store) 是 
构建 在 阿里 云 飞 天 分 布 式 系统 之 上 的 NoSQL 数据 存储 服务 ,提供 海量 结构 化 和 半 结 构 化 
数据 的 存储 和 实时 访问 。 表 格 存储 以 实例 和 表 的 形式 组 织 数 据 , 通 过 数据 分 片 和 人 负载 均衡 
技术 ,达到 规模 的 无 缝 扩展。Table Store 癌 应 用 程序 屏蔽 底层 便 件 平台 的 故障 和 错误 ,能 
自动 从 各 类 错误 中 快速 恢复 ,提供 了 非常 高 的 服务 可 用 性 。Table Store 管理 的 数据 全 部 存 
fifi TE SSD 中 并 具有 多 个 备份 ,提供 了 快速 的 访问 性 能 和 极 高 的 数据 可 徘 性 。 

杜 小 勇 等 人 中 对 大 数据 管理 系统 的 相关 工作 进行 了 综述 ,他 们 指出 大 数据 管理 技术 
正在 经 历 以 软件 为 中 心 到 以 数据 为 中 心 的 计算 平台 的 变迁 ,因此 传统 的 关系 型 数据 库 管 理 
系统 已 无 法 满足 现在 以 数据 为 中 心 的 大 数据 管理 的 需求 。 他 们 首先 回顾 了 数据 管理 技术 的 
发 展 历史 ,并 从 大 数据 管理 的 存储 数据 模 型 .计算 模式 .查询 引擎 等 方面 分 析 了 大 数据 管理 
系统 的 现状 ,指出 当前 大 数据 管理 系统 具有 模块 化 和 松 斐 合 的 特点 。 接 着 进一步 介绍 了 大 
数据 管理 系统 应 具备 的 数据 特征 、 系 统 特征 和 应 用 特征 ,指出 大 数据 管理 系统 技术 还 在 快速 
进化 之 中 ,预测 未 来 的 大 数据 管理 系统 应 具备 多 数据 模型 并 存 、 多 计算 模式 融合 、 可 伸缩 调 
整 .新 便 件 驱动 . 目 适 应 调 优 等 特点 。 


9.4 基于 区 块 链 的 大 数据 云 存 储 


因为 比特 币 22 的 兴起 ,区 块 链 (Blockchain) 技 术 得 到 广泛 关注 并 被 应 用 于 包括 云 存 储 
与 大 数据 在 内 的 各 个 领域 。 区 块 链 因 其 去 中 心 化 不 可 算 改 、 可 追溯 等 特征 ,可 以 为 应 用 系 
统 提供 较 好 的 安全 性 保障 。 本 节 首 先 对 区 块 链 技术 进行 概述 ,重点 介绍 一 些 基于 区 块 链 技 
术 的 存储 系统 。 


9.4.1 区 块 链 概述 


2016 年 10 月 由 国家 工信部 信息 化 和 软件 服务 业 司 指导 编写 的 《4 中国 区 块 链 技 术 和 应 
用 发 展 日 皮 书 ?指出 :“ 区 块 链 是 分 布 式 数据 存储 、 点 对 点 传输 、 共 识 机 制 , 加 密 算法 等 计算 
机 技术 在 互联 网 时 代 的 创新 应 用 模式 ”。 
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区 块 链 应 用 多 种 密码 学 技术 ,提供 了 一 种 去 中 心 化 .不 可 莫 改 、 可 奶 溯 以 及 不 可 抵赖 的 
网 络 平台 ,可 在 互 不 了 解 的 多 方 间 建立 可 徘 的 信任 ,在 没有 第 三 方 中 介 机 构 的 协调 下 , 划 时 
代 地 实现 了 可 信 的 数据 共享 和 点 对 点 的 价值 传输 。 因 为 它 具 有 很 多 优秀 的 特征 ,目前 已 得 
到 产业 界 和 学 术 界 广泛 关注 并 在 各 个 领域 均 有 应 用 。 

区 块 链 包含 两 个 层面 的 含义 : 区 块 链 网 和 “Token 经 济 学 ”。 区 块 链 网 由 一 个 分 布 式 密 
码 学 共享 账本 和 点 对 点 网 络 构成 ,其 本 质 是 在 一 个 没有 信任 的 互联 网 上 构建 一 个 去 中 心 的 、 
可 信任 的 网 络 。 所 谓 “Token 经 济 学 ”, 是 指 在 区 块 链 网 之 上 构建 以 Token 为 手段 的 游戏 规 
则 和 激励 机 制 , 嘉 励 区 块 链 的 参与 者 日 组 织 地 参与 游戏 ,并 按 规则 自动 获得 “收益 ”, 多 劳 多 

由 于 参与 者 身份 不 可 抵赖 ,参与 者 之 间 达 成 的 交易 或 记录 不 可 算 改 ,参与 者 对 系统 的 贡 
献 和 交易 活动 可 完全 由 数字 化 Token 方式 计量 ,这 大 大 降低 了 系统 内 的 摩擦 ,使 得 交易 更 
加 高 效 , 成 本 更 加 低廉 。 利 用 Token 经 济 学 中 的 激励 机 制 ,可 以 让 区 块 链 的 所 有 用 户 按 规 
则 上 自动 付出 或 者 获得 "收益 ” ,实现 用 户 之 间 的 公平 与 公正 ,避免 了 云 存 储 集中 式 环境 下 的 恶 
意 服务 硕 返 回 错误 的 查询 结果 ,仍然 可 以 得 到 用 户 付 出 的 薪酬 。 总 之 ,利用 区 块 链 可 以 提高 
效率 ,实现 参与 方 之 间 的 公平 性 ,减少 中 间 环 节 ,降低 交易 成 本 。 

区 块 链 具 有 在 去 中 心 的 数字 环境 中 共享 信息 、 转 移 价 值 和 记录 交易 的 潜力 ,应 用 包括 供 
应 链 管理 、 知 识 产 权 登 记 、 数 字 文 付 、 股 权 转 让 和 数字 货币 等 。 

区 块 链 技 术 可 用 于 解决 大 数据 共 圣 中 的 价值 激励 与 数据 安全 问题 ,因此 在 这 方面 也 取 
得 了 丰富 的 研究 成 果 。 下 面 将 对 一 些 基 于 区 块 链 技术 的 存储 系统 进行 介绍 。 


9.4.2 基于 区 块 链 技术 保障 大 数据 安全 


凭借 着 去 中 心 化 .不 可 和 贷 改 .可 追溯 以 及 不 可 抵赖 等 特性 ,区 块 链 技术 得 到 广泛 关注 ,有 
一 些 存 储 系统 开始 采用 区 块 链 技术 来 保障 大 数据 的 存储 安全 。 目 前 已 经 诞生 了 一 大 批 基于 
区 块 链 的 存储 系统 。 

与 集中 式 存储 技术 不 同 , 基 于 区 块 链 的 分 布 式 存 储 技术 通过 P2P 网 络 将 数据 存储 在 网 
络 中 的 各 个 节点 上 ,将 这 些 分 散 的 存储 资源 整合 成 一 个 虚拟 的 统一 存储 空间 。 

1. Storj 

Storj KF [n] Storage) (https: / /storj. io/) Ff Xt zx FF fitt 939 JT AZ HJ JT Ui DX Bt Bk 9 H . 
声称 是 未 来 的 云 存 储 , 它 能 保证 任何 时 候 对 用 户 上 传 到 区 块 链 的 内 容 进行 加 密 。Storj 主张 
要 促进 他 们 的 云 存 储 比 传统 云 存 储 速 度 快 10 倍 , 但 价格 却 要 便宜 50% ,同时 使 所 有 Storj 
用 户 更 加 分 散 、 可 访问 和 更 加 安全 。Storj 是 一 个 基于 以 太 坊 (Ethereum) 的 去 中 心 化 分 布 
式 云 存储 平台 , 它 将 文件 加 密 ,然后 将 加 密 文 件 分 解 成 更 小 的 数据 块 ,分散 地 存储 在 网 络 上 。 

Stor) 有 一 个 中 心 化 的 奖励 机 制 , 即 每 个 月 Stor) 官方 会 根据 每 个 用 户 的 存储 量 来 发 放 
奖励 。Storj 有 多 平台 图 形 界面 应 用 DriveShare, 让 所 有 普通 用 户 可 以 自由 地 分 享 他 们 的 便 
盘 空 间 ,而 不 需要 任何 特殊 的 IT 技能 。 

Storjcoin X(SJCX) 是 Storj 网 络 系统 的 一 种 代 币 , 它 可 以 像 *“ 燃 料 ? 一 样 允 许 用 户 在 
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DirveShare 的 应 用 中 使 用 ,通过 SJCX 来 租用 或 者 购 丑 存储 空间 。 代 币 通常 会 优先 提供 给 
对 社区 有 贡献 的 人 ,每 个 人 都 有 机 会 通过 贡献 存储 资源 来 赚 取 SJCX, 也 可 以 阻止 没有 
SJCX 的 恶意 节点 通过 运作 很 多 节点 来 攻击 网 络 。 

在 Storj 中 ,用 户 的 数据 会 被 自动 分 片 存 放 在 不 同 节点 ,通过 端 到 端 加 密 进 行 保 护 。 这 
些 分 片 可 以 实现 “并 行 下 载 ?” ,从 而 提高 数据 读 取 速度 。 知 用 户 要 从 区 块 链 上 下 载 内 容 , 就 必 
须 使 用 对 应 的 私 钥 ,从 而 保障 区 块 链 上 数据 的 安全 。 事 实 上 ,作者 在 华中 科技 大 学 读 研 究 生 
时 ,所 在 团队 就 开发 了 一 个 这 样 的 应 用 ,由 所 有 加 入 共享 系统 的 用 户 共 享 空闲 磁盘 ,同时 给 
了 巴 用 户 对 应 的 权限 ,比如 读 取 文件 资源 的 权限 。 只 是 当时 没有 代 币 ,好 处 是 体现 在 用 户 可 读 
取 的 资源 上 。 

2. IPFS 

星际 文件 系统 (InterPlanetary File System. IPFS) Chttps:/ /ipfs. 10/0 的 提出 者 认为 
HTTP 协议 存在 效率 低下 .服务 需 成 本 昂贵 .中心 化 的 网 络 存 在 瓶颈 等 诸多 缺点 ,为 此 设计 
了 IPFS 来 解决 或 者 弥补 HTTP 的 一 系列 映 端 。 因 此 ,IPFS 是 一 个 从 基础 层 而 不 是 应 用 层 
重新 设计 云 存储 的 去 中 心 化 的 云 存 储 系统 。 

IPFS 旨 在 创建 持久 且 分 布 式 存 储 和 共享 文件 的 网 络 传输 协议 ,实现 内 容 可 寻 址 的 对 等 
超 媒体 分 发 协议 ,可 以 让 网 络 更 快 . 更 安全 .更 开放 。IPFS 网 络 中 的 节点 构成 一 个 面向 全 球 
的 、 点 对 点 的 分 布 式 版 本 文件 系统 ,试图 将 所 有 具有 相同 文件 系统 的 计算 设备 连接 在 一 起 。 
IPFS 可 以 从 本 质 上 改变 网 络 数 据 的 分 发 机 制 。 

IPFS 中 每 个 文件 及 其 中 的 所 有 块 都 被 赋予 一 个 被 称 为 加 密 散 列 的 唯一 指纹 ,用 户 可 以 
通过 该 指纹 查找 文件 。IPFS 通过 计算 可 以 判断 哪些 文件 是 元 余 重 复 的 ,然后 通过 网 络 删除 
具有 相同 哈 硕 值 的 文件 ,并 跟踪 每 个 文件 的 历史 版 本 记录 。 

t; HTTP 相 比 较 ,IPFS 基于 内 容 寻 址 ,而 非 基 于 域名 寻 址 。 一 个 文件 存 人 了 IPFS 网 
络 ,将 基于 文件 内 容 被 赋予 唯一 的 加 密 哈 布 值 ; 此 外 ,IPFS 提供 文件 的 历史 版 本 控制 器 ,让 
多 节点 使 用 保存 不 同 版 本 的 文件 。 

IPFS 网 络 使 用 区 块 链 存储 文件 的 喻 希 值 表 , 用 户 通过 查询 区 块 链 获 取 要 访问 文件 的 地 
址 。IPFS 使 用 FileCoin 作为 代 币 ,矿工 通过 为 网 络 提供 开放 的 硬盘 空间 获得 Filecoin, 而 用 
户 则 用 Filecoin 来 支付 在 去 中 心 化 网 络 中 存储 加 密 文 件 的 费用 。 

3. Sia 

SiaChttps://sia. tech/) 是 一 种 基于 区 块 链 技术 的 开源 云 存储 系统 , 它 是 基于 工作 量 证 
HH Æ (Proof Of Work, POW) X WHI., 

Sia AY 3: 3€ H ERE FE ER AY RUDI E I FE h EE TET T AIO. Sia 支持 块 上 的 智能 
合约 ,由 于 智能 的 元 余 管理 ,Sia 的 存储 比较 便宜 。 

在 Sia 中 ,用 户 的 数据 会 被 加 密 并 自动 分 片 存放 在 不 同 节点 ,其 存储 与 访问 过 程 与 
Stor) ÆW. Sia 网 络 的 加 密 赁 币 叫 Siacoin ,被 用 来 在 Sia 网 络 上 购买 存储 空间 ,存储 资源 提 
供 者 也 会 收 到 Siacoin 作为 回报 。 

此 外 ,MaidSafe(https://maidsafe. net/) 也 是 一 个 实现 与 Storj 及 Sia 类 似 功 能 的 分 布 
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式 存 储 系 统 , 它 的 代 币 是 Safecoin (http://www. safecoin. io) 。 

除了 以 上 产业 界 的 研究 成 果 与 产品 ,科研 工作 者 也 取得 了 丰硕 的 研究 成 果 。 

针对 能 源 互联 网 企业 内 部 与 外 部 数据 共享 过 程 中 ,存在 集中 部 署 导 致 访问 受 限 、 标 识 不 
唯一 、 易 被 鳃 取 或 算 改 等 安全 问题 ,文献 L142] 对 基于 区 块 链 的 数据 安全 共享 网 络 体系 展开 
研究 ,构建 了 基于 区 块 链 的 数据 安全 共享 网 络 体系 ,包括 去 集中 化 数据 统一 命名 技术 及 服 
务 .授权 数据 分 布 式 高 效 存 储 和 文 持 自主 对 等 的 数据 高 效 分 发 协议 。 他 们 设计 了 开放 式 数 
据 索 引 命 名 结构 (Open Data Index Naming Structure, ODIN) ,前 述 了 ODIN 运行 机 制 ,并 
且 设 计 了 基于 ODIN 的 去 中 心 化 DNS 的 域名 协议 模块 ,为 数据 间 P2P Sc 4 n] fri FEE ERE 
了 基础 。 最 后 ,对 去 中 心 化 DNS 的 功能 进行 验证 ,为 实现 企业 内 部 及 企业 间 的 数据 安全 共 
享 构建 了 一 种 可 信 的 网 络 环境 。 

现 有 数据 共享 模型 存在 如 下 缺陷 。 

以 关键 字 为 基础 的 数据 检索 无 法 高 效 发 现 可 连接 数据 集 。 

D 数据 交易 缺乏 透明 性 ,无 法 有 效 检测 及 防范 交易 参与 方 串 谋 等 舞 整 行为 。 

(3) 数据 所 有 者 失去 数据 的 控制 权 . 所有权, 数据 安全 无 法 保障 。 

针对 这 些 问题 ,文献 L[143] 利 用 区 块 链 技术 建立 了 一 种 全 新 的 去 中 心 化 数据 共享 模型 。 
他 们 首先 从 共享 数据 集中 提取 多 层面 元 数据 信息 ,通过 各 共识 节点 建立 域 索 引 以 解决 可 连 
接 数 据 集 的 高 效 发 现 问题 ; 然后 从 交易 记录 格式 及 共识 机 制 人 手 ,建立 基于 区 块 链 的 数据 
交易 ,实现 交易 的 透明 性 及 防 串 谋 等 舞 整 行为; 最 后 依据 数据 需求 方 的 计算 需求 编写 计算 
合约 , 侍 助 安全 多 方 计算 及 差分 隐私 技术 保障 数据 所 有 者 的 计算 和 输出 隐私 。 实 验 表明 ,他 
们 所 提出 的 域 索 引 机 制 在 可 接受 的 召回 率 范 围 内 ,连接 数据 集 查 准 率 平均 提高 22%% 。 

随 厦 以 比特 币 为 代表 的 区 块 链 技术 的 竹 勃 发 展 , 区 块 链 开始 逐步 超越 可 编程 货币 而 进 
入 智能 合约 时 代 。 智 能 合约 (Smart Contract) 是 一 种 由 事件 驱动 的 具有 状态 的 代码 合约 ， 
它 利 用 协议 和 用 户 接 口 完成 合约 过 程 ,允许 用 户 在 区 块 链 上 实现 个 性 化 的 代码 逻辑 。 

文献 L144 对 基于 区 块 链 的 智能 合约 技术 与 应 用 进行 了 综述 。 他 们 首先 阐述 了 智能 合 
约 技术 的 基本 概念 、 全 生命 周期 .基本 分 类 、 基 本 架构 .关键 技术 、 发 展现 状 以 及 智能 合约 的 
主要 技术 平台 ; 然后 探讨 了 智能 合约 技术 的 应 用 场景 以 及 发 展 中 所 存在 的 问题 ; 最 后 , 基 
于 智能 合约 理论 ,他 们 搭建 了 以 太 坊 实验 环境 并 开发 了 一 个 智能 合约 系统 。 

文献 [L145 对 区 块 链 技 术 的 架构 及 进展 进行 了 综述 ,他 们 结合 比特 币 、 以 太 坊 和 
Hyperledger Fabric 等 区 块 链 平台 ,提出 了 区 块 链 系 统 的 体系 架构 ,从 区 块 链 数据 、 共 识 机 
制 、 智 能 合约 、 可 扩展 性 、 安 全 性 几 个 方面 曾 述 了 区 块 链 的 原理 与 技术 ,通过 与 传统 数据 库 的 
对 比 总 结 了 区 块 链 的 优势 .劣势 及 发 展 趋势 。 

文献 [146 ] 对 区 块 链 安 全 人 研究 进行 了 综述 。 他 们 分 层 介 绍 了 区 块 链 的 基本 技术 原理 ,并 
从 算法 .协议 、 使 用、 实现 .系统 的 角度 出 发 ,对 区 块 链 技 术 存 在 的 安全 问题 做 了 分 模块 阐述 。 
他 们 讨论 了 区 块 链 面临 的 安全 问题 的 本 质 原因 ,主要 分 析 协 议 安全 性 中 的 共识 算法 问题 、 实 
现 安全 性 中 的 智能 合约 问题 ,以 及 使 用 安全 性 中 的 数字 赁 币 交 易 所 安全 问题 。 最 后 ,他们 分 
析 了 现 有 区 块 链 安 全 保护 措施 存在 的 缺陷 ,给 出 了 区 块 链 安 全 问题 的 解决 思路 ,并 明确 了 区 
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块 链 安 全 的 未 来 研究 方 回 。 

文献 [147] 介绍 了 区 块 链 理论 人 研究 进展 ,他 们 先 从 比特 币 区 块 链 的 视角 出 发 ,通过 了 解 
其 运行 机 制 、 基 本 特征 .关键 技术 技术 挑战 等 ,建立 起 对 区 块 链 的 直观 感受 ; 然后 给 出 区 块 
链 的 形式 化 定义 ,并 总 结 目前 区 块 链 在 相关 密码 技术 、 安 全 性 分 析 、 共 识 机 制 \ 隐 私 保护 、 可 
扩展 性 等 方面 的 最 新 研究 进展 。 

文献 [148] 阐 述 了 区 块 链 技术 及 其 在 信息 安全 领域 的 研究 进展 ,从 区 块 链 的 基础 框架 、 
关键 技术 、 技 术 特 点 、 应 用 模式 、 应 用 领域 这 5 个 方面 介绍 了 区 块 链 的 基本 理论 与 模型 ; 然 
后 从 区 块 链 在 当前 信息 安全 领域 研究 现状 的 角度 出 发 ,综述 了 区 块 链 应 用 于 认证 技术 ,访问 
控制 技术 、 数 据 保 护 技 术 的 研究 进展 ,对 比 了 各 类 人 研究 的 特点 ; 最 后 ,分 析 了 区 块 链 技术 的 
应 用 挑战 ,对 区 块 链 在 信息 安全 领域 的 发 展 进 行 了 总 结 与 展望 。 

文献 [L149] 对 区 块 链 隐私 保护 研究 工作 进行 了 综述 ,他 们 定义 了 区 块 链 技术 中 身份 隐私 
和 交易 隐私 的 概念 ,分 析 了 区 块 链 技术 在 隐私 保护 方面 存在 的 优势 和 不 足 ,并 分 类 描述 了 现 
有 研究 中 针对 区 块 链 隐 私 的 攻击 方法 ,例如 交易 湖 源 技术 和 账户 聚 类 技术 ; 然后 详细 介绍 
针对 区 块 链 网 络 层 .交易 层 和 应 用 层 的 隐私 保护 机 制 ,包括 网 络 层 恶意 节点 检测 和 限制 接 人 
技术 、 区 块 链 交 易 层 的 混 币 技术 .加 密 技 术 和 限制 发 布 技术 ,以 及 针对 区 块 链 应 用 的 防御 机 
制 ; 最 后 ,分 析 了 现 有 区 块 链 隐 私 保 护 技术 存在 的 缺陷 ,展望 了 未 来 发 展 方向 。 

此 外 ,还 有 一 些 关 于 区 块 链 的 可 扩展 性 研究 ” 、 数 据 分 析 "“ 、 医 疗 数 据 共享 模型 
以 及 综述 9531 


9.5 存在 的 问题 和 未 来 发 展 方 向 


大 数据 市 来 大 挑战 ,虽然 在 产业 应 用 与 科研 方面 已 经 取得 了 丰 晶 的 研究 成 束 ,但 仍然 存 
在 一 些 有 竺 解决 的 问题 ,主要 包括 以 下 几 个 方面 。 

1. 因果 逻辑 或 相关 性 

大 数据 时 代 ,到 撒 是 寻求 因果 逻辑 ,还 是 找到 相关 性 ?“ 世 间 万 物 凤 有 定数 ,万 物 此 有 
因 ,万 般 此 有 末 ”“ 种 瓜 得 瓜 , 种 豆 得 豆 ", 这 是 因果 论 的 思想 ,认为 事物 都 有 一 定 的 因果 关系 。 

在 现实 生活 中 ,有 一 些 复 杂 的 问题 ,找到 因 有 果 逻 辑 的 难度 非常 大 。 因 此 ,在 大 数据 时 代 ， 
即使 没有 找到 原因 , 却 能 够 从 大 量 的 数据 中 直接 找 到 答案 , 即 从 大 数据 中 找到 相关 性 进而 寻 
求 答案 ,这 也 是 大 数据 思维 的 核心 。 

正如 吴军 在 《智能 时 代 》 “中 所 说 ,在 今天 的 搜索 引擎 中 ,都 有 一 个 度量 用 户 点 击 数据 
和 搜索 结果 相关 性 的 模型 ,通常 称 之 为 “点 击 模 型 "*。 随 看 数据 量 的 积累 ,点 击 模型 对 搜索 结 
果 排 名 的 预测 越 来 越 准 确 , 其 重要 性 也 越 来 越 大 ,在 搜索 引擎 中 已 至 少 占 到 70% 一 80% 的 
权重 ,所 有 其 他 因素 加 起 来 都 没有 它 重 要 。 一 个 搜索 引擎 使 用 的 时 间 越 长 ,数据 的 积累 就 越 
充分 ,才能 够 有 足够 多 的 数据 来 训练 模型 ,对 于 那些 不 太 和 常见 的 搜索 就 越 准确 。 使 用 “点 击 
模型 ?可 以 有 效 地 提高 搜索 的 准确 率 , 而 这 种 方法 说 不 上 有 什么 因果 逻辑 ,但 却 实 实在 在 地 
对 用 户 有 益 。 
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采用 大 数据 时 代 的 方法 论 或 大 数据 思维 ,一 些 公 司 可 以 不 用 花 大 量 的 时 间 和 资源 来 寻 
找 确定 的 因果 关系 ,而 是 通过 从 大 量 的 数据 中 挖掘 相关 性 ,从 而 改进 其 产品 ,因此 产品 更 新 
更 快 。 

在 无 法 确定 因果 关系 时 ,数据 为 我 们 提供 了 解决 问题 的 新 方法 。 数 据 中 所 包含 的 信息 
可 以 帮助 我 们 消除 不 确定 性 ,而且 数 据 之 间 的 相关 性 在 某 种 程度 上 可 以 取代 原来 的 因果 关 
系 ,帮助 我 们 找到 答案 ,这 就 是 大 数据 思维 的 核心 。 从 这 个 角度 来 说 ,因果 关系 已 经 没有 数 
据 的 相关 性 重要 了 。 

但 是 李开复 在 (人 工 智能 六 天 一 书 中 提 到 :“ 实 用 主义 意味 着 不 求 甚 解 。 即 便 一 个 深度 
学 习 模 型 已 经 被 训练 得 非常 “聪明 ’”, 可 以 非常 好 地 解决 问题 ,但 很 多 情况 下 , 连 设计 整个 水 
管 网 络 的 人 也 未 必 能 说 清楚 ,为 什么 管道 中 每 一 个 阀门 要 调节 成 这 个 样子 。 也 就 是 说 ,人 们 
通常 只 知道 深度 学 习 模 型 是 否 工 作 , 却 很 难说 出 模型 中 某 个 参数 的 取 值 与 最 终 模 型 的 感知 
能 力 之 间 , 到 底 有 怎样 的 因果 关系 。” 

“由 此 引发 的 一 个 哲学 思辩 是 ,如 果 人 们 只 知道 计算 机 学 会 了 做 什么 ,却说 不 清 计算 机 
在 学 习 过 程 中 掌握 的 是 一 种 什么 样 的 规律 , 那 这 种 学 习 本 身 会 不 会 失控 ?” 

欧洲 核子 研究 中 心 (CERN) 的 大 型 强 子 对 撞 机 用 于 发 现 希 格 斯 玻 色 子 , 从 而 获得 有 中 
以 来 最 大 规模 的 单位 时 间 数 据 。 这 项 研究 的 目的 就 是 为 了 回答 关于 因果 关系 最 伟大 的 问 
题 : 希 格 斯 玻 色 子 是 否 存 在 ,我 们 的 宇宙 是 否 有 可 能 用 标准 模型 刻画 。 这 是 对 人 类 起 源 的 
因果 逻辑 的 探索 ! 

正如 《大 数据 时 代 》25 的 译 者 所 说 ,认为 相关 重 于 因果 ,是 某 些 有 代表 性 的 大 数据 分 
析 手 段 ( 璧 如 机 器 学 习 ) 里 面 内 豪 的 实用 主义 的 魅影 , 绝 非 大 数据 自身 的 诉求 。 从 小 处 讲 ， 
《大 数据 时 代 》) 作 者 试图 避免 的 “数据 的 独裁 ?和 “错误 的 前 提 导 致 错误 的 结论 ' ,其 解决 之 
道 恰 在 于 挖掘 因果 逻辑 而 非 相 关 性 ; 从 大 处 讲 , 放 弃 对 因果 性 的 追求 ,就 是 放弃 了 人 类 凌驾 
于 计算 机 之 上 的 智力 优势 ,是 人 类 自身 的 放纵 和 堕落 。 如 果 未 来 某 一 天 机 器 和 计算 完全 接 
管 了 这 个 世界 ,那么 这 种 放弃 就 是 末日 之 始 。” 

本 书 作 者 亦 认 为 ,虽然 大 数据 思维 可 以 从 数据 的 相关 性 中 得 到 很 多 意 想不到 的 结果 ,也 
可 以 帮助 人 们 解决 很 多 实际 的 生活 难题 ,但 这 并 不 能 让 我 们 忘记 初 心 ,放弃 对 事物 本 原 的 探 
索 , 去 追寻 一 切 事物 的 前 因 后 果 。 也 正如 著名 物理 学 家 张 首 晨 教授 所 言 :“ 如 今 ,我 们 生存 
的 周围 世界 复杂 而 多 变 ,但 若是 能 够 对 万 物 寻 根 溯 源 ,我 们 就 可 以 用 简单 对 抗 复杂 ,赢得 效 
率 的 提高 。” 

因为 这 是 研究 大 数据 的 一 个 基本 问题 ,可 以 引发 无 穷 的 思考 ,同时 也 需要 在 做 任何 大 数 
据 的 研究 时 ,需要 记 住 的 一 个 基本 原则 ,所 以 在 此 特别 指出 。 

2. 数据 真 伪 难 辨 是 大 数据 应 用 的 最 大 挑战 

李 建 中 等 全 介绍 了 大 数据 可 用 性 的 研究 进展 ,在 数据 可 用 性 的 表达 机 理 、 数 据 可 用 
性 判定 的 理论 和 算法 数据 错误 检测 与 修复 的 理论 与 方法 .高 质量 数据 获取 的 理论 与 方法 、 
弱 可 用 数据 近似 计算 的 理论 与 方法 等 方面 取得 了 大 量 人 研究 结果 ,也 有 一 些 数据 错误 检测 和 
修复 系统 。 他 们 首先 给 出 了 数据 可 用 性 的 基本 概念 ,然后 讨论 数据 可 用 性 的 挑战 与 研究 问 
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题 并 综述 了 数据 可 用 性 方面 的 研究 成 果 , 最 后 总 结 了 大 数据 可 用 性 的 未 来 研究 方向 。 

在 文中 ,他 们 也 通过 统计 数据 指出 数据 真 伪 难 辨 是 大 数据 应 用 的 最 大 挑战 。 国 外 权威 
机 构 的 统计 数据 表明 : 美国 的 企业 信息 系统 中 ,1% 一 30% 的 数据 存在 各 种 错误 和 误差 中， 
美国 的 医疗 信息 系统 中 ,13.6% 一 81% 的 关键 数据 不 完整 或 陈旧 "“- 。 国 际 著名 的 科技 咨 
询 机 构 Gartner 的 调查 结果 显示 ,全 球 财 富 1000 强 企业 中 ,超过 25% 的 企业 信息 系统 中 存 
在 数据 错误 一" 。 

而 数据 可 用 性 问题 及 其 所 导致 的 知识 和 决策 错误 则 融 来 巨大 的 经 济 损 失 。 在 医疗 方 
面 ,美国 由 于 数据 错误 引发 的 医疗 事故 每 年 导致 的 患者 死亡 人 数 高 达 98000 AWE. 在 
工业 方面 ,错误 和 陈旧 的 数据 每 年 给 美国 的 工业 企业 造成 约 6110 亿美 元 的 损失 。 在 商 
业 方 面 , 美 国 的 零售 业 中 ,每 年 仅 错误 标价 这 一 种 数据 可 用 性 问题 的 诱因 就 导致 了 25 亿美 
THRO, FE OT TT. (LTE 2006 年 ,在 美国 的 银行 业 中 ,由 于 数据 不 一 致 而 导致 的 信 
用 卡其 诈 失 察 就 造成 48 亿美 元 的 损失 ””。 在 数据 仓库 开发 过 程 中 ,30%% 一 80%% 的 开发 时 
间 和 开发 预算 花费 在 清理 数据 错误 方面 “” 。 数 据 可 用 性 问题 给 每 个 企业 增加 的 平均 成 本 
是 产值 的 10962096099 。 

以 上 数据 表明 ,数据 真 伪 难 辩 是 大 数据 应 用 的 最 大 挑战 。 因 此 ,大 数据 对 其 数据 可 用 性 
的 保障 提出 了 迫切 需求 。 关 于 数据 可 用 性 ,有 很 多 度量 指标 ,文献 L167j] 列 出 了 20 个 数据 可 
用 性 指标 ; 文献 [L168] 归纳 了 40 个 数据 可 用 性 指标 ; 文献 L169] 则 提取 了 5 个 实际 可 行 的 度 
量 指标 , 即 数据 一 致 性 、 数 据 精 确 性 、 数 据 完整 性 、 数 据 时 效 性 与 实体 同一 性 。 

对 数据 真 伪 的 辨识 还 有 待 进一步 的 研究 。 

3.“ 不 可 算 改 ”特征 与 “被 遗忘 权 ” 的 冲突 

区 块 链 技 术 被 认为 是 下 一 代 互 联网 的 核心 技术 ,可 以 帮助 解决 很 多 数据 安全 与 隐私 保 
护 问 题 。 不 过 ,与 了 折 有 其 他 技术 一 样 , 它 也 是 一 柄 双 为 剑 。 它 具有 “不 可 算 改 ”的 特征 ,可 以 
有 效 地 溯源 并 实现 不 可 抵赖 ,但 同时 也 带 来 了 数据 “被 遗忘 权 ” 问 题 。 因 为 数据 一 旦 上 链 ,将 
永久 不 可 删除 与 修改 ,那么 数据 也 将 永久 不 可 遗忘 。 

个 人 信息 的 不 可 遗忘 将 带 来 隐私 安全 问题 ,而 在 现实 金融 应 用 中 ,数据 修改 与 交易 撤销 
都 是 常见 的 操作 ,而 区 块 链 的 “不 可 算 改 ”特征 却 使 这 样 习以为常 的 操作 变 得 困难 。 

4. 密 态 计算 的 效率 问题 

为 了 保障 大 数据 安全 ,数据 以 密 态 存储 。 为 了 实现 大 数据 的 价值 ,需要 对 这 些 密 态 数据 
进行 分 析 处 理 。 而 无 论 是 同 态 加密 技 术 还 是 安全 多 方 计算 ,都 存在 诸多 问题 ,其 中 效率 问题 
最 为 突出 。 大 数据 的 数据 体 量 大 ,对 其 明文 进行 分 析 人 处 理 已 经 非常 耗 时 ,而 对 其 密 文 的 处 理 
在 目前 来 说 还 未 达到 实用 的 阶段 。 

同 态 加 密 技 术 采 用 的 加 密 方 法 和 公 钥 加 蜜 方法 一 样 ,需要 执行 大 量 复杂 的 指数 运算 ,大 
大 降低 了 数据 的 处 理 效率 ,因此 目前 的 同 态 加 密 技 术 还 不 支持 对 海量 数据 的 快速 处 理 。 

最 近 ,微软 公司 将 人 工 智能 技术 引入 到 同 态 加 密 技 术 中 ,提出 训练 加 密 数 据 的 模型 系统 
CryotoNets ,可 以 利用 人 工 前 馈 神 经 网 络 模型 对 同 态 加 密 算 法 处 理 后 的 密 文 数据 进行 训 
练 , 而 后 就 可 以 使 用 人 工 前 馈 神 经 网 络 对 提交 的 密 文 进行 预测 分 析 。 这 是 一 种 新 的 结合 人 
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工 知 能 提高 密 态 数据 处 理 效 率 的 思路 。 

同 态 加 密 技 术 和 安全 多 方 计 算 将 是 实现 大 数据 共享 与 隐私 保护 的 核心 技术 ,而 当前 最 
重要 的 问题 是 使 其 计算 效率 能 达到 实用 的 水 平 。 

此 外 ,如 何在 保证 数据 隐私 的 前 提 下 ,进一步 提高 隐私 保护 后 的 数据 效用 , 即 如 何平 衡 
数据 隐私 与 效用 ? 而 因为 差分 隐私 可 以 实现 定量 的 评估 ,其 在 各 个 应 用 领域 的 发 展 有 待 进 


一 步 的 研究 。 
以 上 问题 为 未 来 发 展 方向 指明 了 道路 ,所 有 有 竺 解决 的 问题 都 是 未 来 需要 重点 研究 并 
解决 的 问题 。 


9.6 RENE 


本 草 主 要 介绍 大 数据 时 代 的 数据 存储 安全 。 痢 先 从 大 数据 的 概念 、 应 用 价值 到 大 数据 
带 来 的 数据 存储 挑战 说 起 ,分 析 大 数据 环境 下 云 存储 安全 问题 。 为 了 保障 数据 安全 ,数据 以 
密 态 存储 ,因此 重点 对 密 态 计算 、 安 全 多 方 计算 以 及 隐私 保护 技术 进行 了 阐述 。 然 后 介绍 了 
基于 NoSQL 与 区 块 链 的 大 数据 云 存 储 系 统 , 两 者 都 是 云 计算 与 云 存 储 时 代 的 最 新 技术 ,也 
是 解决 大 数据 存储 的 核心 技术 。 最 后 指出 当前 大 数据 仍然 存在 的 问题 以 及 未 来 发 展 方 癌 。 
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